AI日報：谷歌終極殺器硬剛GPT-4o、Sora；字節推出豆包大模型“全家桶”；阿里再推AI虛擬試衣神器；騰訊開源混元文生圖大模型

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

1、谷歌急了，終極殺器對打GPT-4o 視頻模型Veo硬剛Sora

谷歌近日發佈了一系列強大的AI工具，包括Project Astra、Veo視頻模型和Gemini1.5Pro，旨在徹底顛覆谷歌搜索並挑戰OpenAI。其中，Veo視頻模型被視爲對OpenAI Sora的正面迎戰，具有驚人的電影感和專業級生成效果。谷歌結合多項開創性成果，提高了視頻生成的一致性、質量和分辨率。發佈的AI工具標誌着谷歌在人工智能領域的不斷進步和創新，競爭將持續升級。

【AiBase提要】
🔸大殺器Project Astra，視覺識別和語音交互效果，跟GPT-4o不相上下。
🔸Gemini1.5Pro超長上下文窗口，token數將達 200 萬，且開放給個人使用
🔸文生視頻模型Veo硬剛Sora，生成視頻不僅真實，而且在光線、構圖等方面具有驚人的電影感
Veo視頻生成申請入口:https://aitestkitchen.withgoogle.com/tools/video-fx
Gemini體驗地址：https://aistudio.google.com/app/prompts/new_chat

2、微軟宣佈 GPT-4o 模型在 Azure OpenAI 上使用

微軟宣佈最新的多模態模型GPT-4o現已可以在Azure OpenAI上使用，該模型支持跨文本、視頻、音頻多模態推理，具有強大的多模態解讀和輸出能力。GPT-4o在教育、語言學習、形象評價等領域有廣泛應用前景。

【AiBase提要:】
🔸 GPT-4o支持跨文本、視頻、音頻多模態推理，展現強大的多模態解讀、輸出能力
🔸 在教育領域可作爲AI輔導助手，幫助學生解答問題、進行實時語言翻譯
🔸 在語言學習方面表現出色，通過視頻進行西班牙語學習，在形象評價領域有廣泛應用前景

3、字節跳動正式發佈自研豆包大模型系列

字節跳動在2024春季火山引擎FORCE原動力大會上推出了豆包大模型系列，展現了其在人工智能領域的深厚積累和創新能力。豆包大模型已在內部廣泛應用，對外服務將助力行業智能化升級。這一創新成果體現了字節跳動的技術積累和對未來AI發展的洞察。

【AiBase提要:】
✨ 字節跳動推出豆包大模型系列，包括九大模型，展示深厚技術積累和創新能力。
🚀 豆包大模型在內部已廣泛應用，對外服務將助力行業智能化升級。
💡 創新成果體現字節跳動的技術積累和對未來AI發展的洞察。
詳情：https://www.chinaz.com/2024/0515/1616629.shtml

4、阿里國際推出AI虛擬試衣工具，1分鐘內搞定

阿里國際旗下的Pic 推出的AI虛擬試衣工具爲服飾商家帶來了革命性的成本節省和效率提升。商家只需上傳服裝圖片並選擇模特，即可在短時間內生成專業棚拍效果的商品圖，平均成本控制在0.2-0.3元人民幣以內。這一工具不僅簡化了拍攝流程，還保證了模特授權合法性，受到了廣交會北美客商的熱烈歡迎。

【AiBase提要:】
👗 AI虛擬試衣工具幫助服飾商家省去拍攝成本，將商品穿在模特身上生成模特圖。
📸 虛擬試衣功能支持上傳上裝和下裝的圖片，識別連身服裝，生成不同效果的展示圖。
💰 商家使用虛擬試衣功能平均成本控制在0.2-0.3元人民幣以內，大大降低了拍攝成本，推動產品全球市場銷售。

5、騰訊開源混元DiT 圖像生成模型可根據對話上下文生成並細化圖像

這篇文章介紹了騰訊開源的混元DiT圖像生成模型Hunyuan-DiT，它具有對中英文的精細理解能力，可以根據對話上下文生成並細化圖像。Hunyuan-DiT結合了Transformer結構、文本編碼和位置編碼，訓練了一個多模態大型語言模型，爲圖像生成任務帶來顯著效果。該模型在自然語言處理、圖像生成等領域有廣泛應用前景。

【AiBase提要:】
🔑 Hunyuan-DiT採用Transformer結構，在文本處理領域取得成功。
🔑 通過文本編碼和位置編碼，Hunyuan-DiT實現對中文的細粒度理解。
🔑 訓練多模態大型語言模型，使Hunyuan-DiT能生成準確、描述性的圖像描述。
詳情鏈接:https://github.com/Tencent/HunyuanDiT

6、ElevenLabs發佈配音API 允許開發者在產品中添加音頻或視頻翻譯功能

ElevenLabs最近發佈了配音API，爲開發者提供了在其產品中添加音頻或視頻翻譯功能的便利。該API支持29種語言翻譯，並保留原始發言者聲音特徵。開發者可通過Python教程和API參考快速上手，輕鬆整合到主要編程語言中。ElevenLabs還推出了名爲ElevenLabs Music的文本生成歌曲產品，展現出色的音樂表現和創作能力。

【AiBase提要:】
🔊 配音API允許翻譯音頻或視頻至29種語言，並保留原聲特徵。
🎶 ElevenLabs Music在音樂方面表現出色，包括節奏感、和聲、創意性等。
🎤 ElevenLabs的主要產品包括語音克隆、文本轉語音和AI配音解決方案。
詳情鏈接:https://elevenlabs.io/docs/api-reference/create-dub

7、MiniMax推出人生搭子「海螺 AI」

MiniMax推出了一款名爲「海螺 AI」的人生搭子產品，爲學生、職場新人、自由工作者、創作者等各類人羣提供外掛大腦和人生搭子，幫助化解信息過載和高速運轉帶來的壓力。小海螺具備智能高效的特點，支持處理長篇內容，理解情感並耐心傾聽用戶，支持多種交互方式。已被廣泛使用，24*7在線解決用戶問題，希望陪伴用戶在人生不同階段。

【AiBase提要:】
🧠 智能高效：小海螺接入自研多模態大模型，支持處理長篇內容，具備智能高效特點。
💬 人性化交互：產品有溫度，理解情感並耐心傾聽用戶，支持多種交互方式如文字輸入、上傳文件、語音交流。
🌟 多羣體應用：從備考學生到大廠運營人員，各類用戶羣體使用，展現多樣化使用方式。

8、Android即將推出基於AI的詐騙電話檢測功能

Google正在開發一項新的保護功能，利用Gemini Nano技術識別詐騙電話中的欺詐性語言和對話模式，用戶將收到實時警報並被鼓勵結束可疑通話。該功能在設備上進行監測，保持對話私密，有助於防止詐騙行爲。

【AiBase提要:】
🔍 利用Gemini Nano技術識別詐騙電話中的欺詐性語言和對話模式，提供實時警報。
🚫 用戶將收到警報，提示結束可疑通話，避免泄露個人信息或被詐騙。
💡 Gemini Nano目前僅支持Google Pixel8Pro和Samsung S24系列手機，限制了功能的適用範圍。

9、谷歌計劃將 Gemini Nano AI 直接內置到 Chrome 瀏覽器中

谷歌計劃將 Gemini Nano AI 直接內置到 Chrome 瀏覽器中，這意味着用戶將可以在瀏覽器內生成社交媒體帖子、產品評論等內容，同時爲開發人員提供錯誤信息解釋和代碼修復建議。Gemini Nano在本地設備上運行，提供更快速和隱私保護的AI體驗。

【AiBase提要:】
✨ Gemini Nano將直接嵌入Chrome瀏覽器，用戶可生成社交媒體帖子、產品評論等內容
🔧 Gemini Nano作爲Chrome DevTools的一部分，爲開發人員提供錯誤信息解釋和代碼修復建議
⚡ Gemini Nano在本地設備上運行，提供更快速和隱私保護的AI體驗

10、谷歌推出新的 AI 模型 LearnLM，專注於教育領域

谷歌推出的新 AI 模型 LearnLM 旨在幫助學生解決作業問題和提高學習效果，通過與谷歌其他產品整合，提供多種學習輔助功能，如簡化課程計劃、回答數學和物理題目等。

【AiBase提要:】
🤖 LearnLM 是谷歌基於 Gemini 開發的 AI 模型，旨在幫助學生解決作業問題和提高學習效果。
📚 LearnLM 可以通過不同方式找到和展示專題例子，輔導學生習，並激發學習興趣。
💡 LearnLM 已與谷歌搜索、Android、YouTube 和 Gem 聊天機器人整合，簡化課程計劃，回答視頻問題，提供個人專家等功能。
詳情鏈接:https://blog.google/outreach-initiatives/education/google-learnlm-gemini-generative-ai/

11、谷歌將AI內容水印技術擴展到視頻和文本領域

谷歌宣佈將AI內容水印技術擴展到視頻和文本領域，引入新型數字水印技術SynthID，用於標記由AI生成的內容。這一舉措在應對政治虛假信息和不良內容傳播方面具有重要意義。

【AiBase提要:】
🔍 SynthID是新型數字水印技術，可標記AI生成的視頻和文本
🛡️ 數字水印無法被人類視覺辨別，但可被系統檢測到，可應對政治虛假信息和不良內容傳播
🌐 AI生成內容的數字水印越來越重要，特別是在AI被濫用時，谷歌的SynthID是其中之一

AI日報：谷歌終極殺器硬剛GPT-4o、Sora；字節推出豆包大模型“全家桶”；阿里再推AI虛擬試衣神器；騰訊開源混元文生圖大模型

相關推薦

谷歌詳解安卓 Halo：狀態欄專屬區域，打造 AI 智能體交互中樞

桌面端 AI 再進化：Gemini Spark 助力 macOS 實現本地文件自動化管理

谷歌推出全新AI生圖模型Nano Banana 2 Lite： 4 秒出圖，主打高頻批量內容生產

圖像生成再提速：谷歌發佈 Nano Banana 2 Lite 模型，極致性價比挑戰行業門檻

算力告急：谷歌限制 Meta 訪問 Gemini 模型，促使 Meta 加速自主研發