歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。

1、谷歌急了,終極殺器對打GPT-4o 視頻模型Veo硬剛Sora

谷歌近日發佈了一系列強大的AI工具,包括Project Astra、Veo視頻模型和Gemini1.5Pro,旨在徹底顛覆谷歌搜索並挑戰OpenAI。其中,Veo視頻模型被視爲對OpenAI Sora的正面迎戰,具有驚人的電影感和專業級生成效果。谷歌結合多項開創性成果,提高了視頻生成的一致性、質量和分辨率。發佈的AI工具標誌着谷歌在人工智能領域的不斷進步和創新,競爭將持續升級。

image.png

【AiBase提要】

🔸大殺器Project Astra,視覺識別和語音交互效果,跟GPT-4o不相上下。

🔸Gemini1.5Pro超長上下文窗口,token數將達 200 萬,且開放給個人使用

🔸文生視頻模型Veo硬剛Sora,生成視頻不僅真實,而且在光線、構圖等方面具有驚人的電影感

Veo視頻生成申請入口:https://aitestkitchen.withgoogle.com/tools/video-fx

Gemini體驗地址:https://aistudio.google.com/app/prompts/new_chat

2、微軟宣佈 GPT-4o 模型在 Azure OpenAI 上使用

微軟宣佈最新的多模態模型GPT-4o現已可以在Azure OpenAI上使用,該模型支持跨文本、視頻、音頻多模態推理,具有強大的多模態解讀和輸出能力。GPT-4o在教育、語言學習、形象評價等領域有廣泛應用前景。

【AiBase提要:】

🔸 GPT-4o支持跨文本、視頻、音頻多模態推理,展現強大的多模態解讀、輸出能力

🔸 在教育領域可作爲AI輔導助手,幫助學生解答問題、進行實時語言翻譯

🔸 在語言學習方面表現出色,通過視頻進行西班牙語學習,在形象評價領域有廣泛應用前景

3、字節跳動正式發佈自研豆包大模型系列

字節跳動在2024春季火山引擎FORCE原動力大會上推出了豆包大模型系列,展現了其在人工智能領域的深厚積累和創新能力。豆包大模型已在內部廣泛應用,對外服務將助力行業智能化升級。這一創新成果體現了字節跳動的技術積累和對未來AI發展的洞察。

image.png

【AiBase提要:】

✨ 字節跳動推出豆包大模型系列,包括九大模型,展示深厚技術積累和創新能力。

🚀 豆包大模型在內部已廣泛應用,對外服務將助力行業智能化升級。

💡 創新成果體現字節跳動的技術積累和對未來AI發展的洞察。

詳情:https://www.chinaz.com/2024/0515/1616629.shtml

4、阿里國際推出AI虛擬試衣工具,1分鐘內搞定

阿里國際旗下的Pic 推出的AI虛擬試衣工具爲服飾商家帶來了革命性的成本節省和效率提升。商家只需上傳服裝圖片並選擇模特,即可在短時間內生成專業棚拍效果的商品圖,平均成本控制在0.2-0.3元人民幣以內。這一工具不僅簡化了拍攝流程,還保證了模特授權合法性,受到了廣交會北美客商的熱烈歡迎。

image.png

【AiBase提要:】

👗 AI虛擬試衣工具幫助服飾商家省去拍攝成本,將商品穿在模特身上生成模特圖。

📸 虛擬試衣功能支持上傳上裝和下裝的圖片,識別連身服裝,生成不同效果的展示圖。

💰 商家使用虛擬試衣功能平均成本控制在0.2-0.3元人民幣以內,大大降低了拍攝成本,推動產品全球市場銷售。

5、騰訊開源混元DiT 圖像生成模型 可根據對話上下文生成並細化圖像

這篇文章介紹了騰訊開源的混元DiT圖像生成模型Hunyuan-DiT,它具有對中英文的精細理解能力,可以根據對話上下文生成並細化圖像。Hunyuan-DiT結合了Transformer結構、文本編碼和位置編碼,訓練了一個多模態大型語言模型,爲圖像生成任務帶來顯著效果。該模型在自然語言處理、圖像生成等領域有廣泛應用前景。

【AiBase提要:】

🔑 Hunyuan-DiT採用Transformer結構,在文本處理領域取得成功。

🔑 通過文本編碼和位置編碼,Hunyuan-DiT實現對中文的細粒度理解。

🔑 訓練多模態大型語言模型,使Hunyuan-DiT能生成準確、描述性的圖像描述。

詳情鏈接:https://github.com/Tencent/HunyuanDiT

6、ElevenLabs發佈配音API 允許開發者在產品中添加音頻或視頻翻譯功能

ElevenLabs最近發佈了配音API,爲開發者提供了在其產品中添加音頻或視頻翻譯功能的便利。該API支持29種語言翻譯,並保留原始發言者聲音特徵。開發者可通過Python教程和API參考快速上手,輕鬆整合到主要編程語言中。ElevenLabs還推出了名爲ElevenLabs Music的文本生成歌曲產品,展現出色的音樂表現和創作能力。

image.png

【AiBase提要:】

🔊 配音API允許翻譯音頻或視頻至29種語言,並保留原聲特徵。

🎶 ElevenLabs Music在音樂方面表現出色,包括節奏感、和聲、創意性等。

🎤 ElevenLabs的主要產品包括語音克隆、文本轉語音和AI配音解決方案。

詳情鏈接:https://elevenlabs.io/docs/api-reference/create-dub

7、MiniMax推出人生搭子「海螺 AI」

MiniMax推出了一款名爲「海螺 AI」的人生搭子產品,爲學生、職場新人、自由工作者、創作者等各類人羣提供外掛大腦和人生搭子,幫助化解信息過載和高速運轉帶來的壓力。小海螺具備智能高效的特點,支持處理長篇內容,理解情感並耐心傾聽用戶,支持多種交互方式。已被廣泛使用,24*7在線解決用戶問題,希望陪伴用戶在人生不同階段。

image.png

【AiBase提要:】

🧠 智能高效:小海螺接入自研多模態大模型,支持處理長篇內容,具備智能高效特點。

💬 人性化交互:產品有溫度,理解情感並耐心傾聽用戶,支持多種交互方式如文字輸入、上傳文件、語音交流。

🌟 多羣體應用:從備考學生到大廠運營人員,各類用戶羣體使用,展現多樣化使用方式。

8、Android即將推出基於AI的詐騙電話檢測功能

Google正在開發一項新的保護功能,利用Gemini Nano技術識別詐騙電話中的欺詐性語言和對話模式,用戶將收到實時警報並被鼓勵結束可疑通話。該功能在設備上進行監測,保持對話私密,有助於防止詐騙行爲。


image.png

【AiBase提要:】

🔍 利用Gemini Nano技術識別詐騙電話中的欺詐性語言和對話模式,提供實時警報。

🚫 用戶將收到警報,提示結束可疑通話,避免泄露個人信息或被詐騙。

💡 Gemini Nano目前僅支持Google Pixel8Pro和Samsung S24系列手機,限制了功能的適用範圍。

9、谷歌計劃將 Gemini Nano AI 直接內置到 Chrome 瀏覽器中

谷歌計劃將 Gemini Nano AI 直接內置到 Chrome 瀏覽器中,這意味着用戶將可以在瀏覽器內生成社交媒體帖子、產品評論等內容,同時爲開發人員提供錯誤信息解釋和代碼修復建議。Gemini Nano在本地設備上運行,提供更快速和隱私保護的AI體驗。

【AiBase提要:】

✨ Gemini Nano將直接嵌入Chrome瀏覽器,用戶可生成社交媒體帖子、產品評論等內容

🔧 Gemini Nano作爲Chrome DevTools的一部分,爲開發人員提供錯誤信息解釋和代碼修復建議

⚡ Gemini Nano在本地設備上運行,提供更快速和隱私保護的AI體驗

10、谷歌推出新的 AI 模型 LearnLM,專注於教育領域

谷歌推出的新 AI 模型 LearnLM 旨在幫助學生解決作業問題和提高學習效果,通過與谷歌其他產品整合,提供多種學習輔助功能,如簡化課程計劃、回答數學和物理題目等。

image.png

【AiBase提要:】

🤖 LearnLM 是谷歌基於 Gemini 開發的 AI 模型,旨在幫助學生解決作業問題和提高學習效果。

📚 LearnLM 可以通過不同方式找到和展示專題例子,輔導學生習,並激發學習興趣。

💡 LearnLM 已與谷歌搜索、Android、YouTube 和 Gem 聊天機器人整合,簡化課程計劃,回答視頻問題,提供個人專家等功能。

詳情鏈接:https://blog.google/outreach-initiatives/education/google-learnlm-gemini-generative-ai/

11、谷歌將AI內容水印技術擴展到視頻和文本領域

谷歌宣佈將AI內容水印技術擴展到視頻和文本領域,引入新型數字水印技術SynthID,用於標記由AI生成的內容。這一舉措在應對政治虛假信息和不良內容傳播方面具有重要意義。

【AiBase提要:】

🔍 SynthID是新型數字水印技術,可標記AI生成的視頻和文本

🛡️ 數字水印無法被人類視覺辨別,但可被系統檢測到,可應對政治虛假信息和不良內容傳播

🌐 AI生成內容的數字水印越來越重要,特別是在AI被濫用時,谷歌的SynthID是其中之一