AI日報：阿里通義開源音頻生成模型ThinkSound；谷歌Veo3支態圖片生成視頻；崑崙萬維發佈 Skywork-R1V 3.0

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://top.aibase.com/

1、阿里通義開源支持鏈式推理的音頻生成模型ThinkSound

阿里語音AI團隊開源了全球首個支持鏈式推理的音頻生成模型ThinkSound，該模型通過引入思維鏈技術，突破傳統視頻轉音頻技術的侷限，實現高保真、強同步的空間音頻生成。這一技術進步標誌着AI音頻從“看圖配音”向“結構化理解畫面”的跨越。

【AiBase提要:】
🧠 ThinkSound首次將多模態大語言模型與統一音頻生成架構結合，實現精準音頻合成。
📊 研究團隊構建了包含2531.8小時高質量樣本的AudioCoT數據集，提升模型處理複雜指令的能力。
🚀 ThinkSound在多個測試集中表現優於主流方法，代碼和預訓練權重已開源，開發者可免費獲取。
詳情鏈接:https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound

2、谷歌Veo3重磅升級，支持靜態圖片生成生動視頻

谷歌宣佈對 AI 視頻生成工具 Veo3進行重磅升級，用戶只需上傳一張靜態照片即可生成高質量的音頻和視頻內容，展示了 AI 在創作領域的巨大潛力。Veo3的核心功能包括保持角色在多個鏡頭下的一致性，並提供豐富的運鏡功能，如推鏡頭。此外，用戶可以選擇不同質量的生成模型，但需要消耗相應的 credits。

【AiBase提要:】
🖼️ Veo3升級後支持從單張靜態圖片生成高質量動態視頻。
🎥 支持運鏡功能，如推鏡頭（Dolly in），提升視頻專業性。
🔊 用戶可選擇不同質量模型，但需消耗相應 credits 資源。

3、Hugging Face發佈新一代小參數模型 SmolLM3:128K上下文，雙模式推理

Hugging Face發佈了SmolLM3，一款具有30億參數的小型開源模型，其性能優於Llama-3.2-3B和Qwen2.5-3B。該模型支持多種語言處理，並具備雙模式推理功能，同時公開了架構細節以促進研究與優化。

【AiBase提要:】
🧠 SmolLM3擁有30億參數，性能超越同類開源模型，支持多語言處理。
⚙️ 提供深度思考和非思考兩種推理模式，靈活應對不同需求。
📊 採用先進的transformer解碼器架構，通過三階段混合訓練提升能力。
詳情鏈接:https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

4、阿里開源 WebSailor，具備強大的推理和檢索能力

阿里通義開源了網絡智能體 WebSailor，其在中英文任務的 BrowseComp 評測集中表現出色，超越了 DeepSeek R1和 Grok-3等閉源模型，展現了強大的推理和檢索能力。銀河證券指出 AI Agent 經濟已全面開啓，並建議關注佈局領先的 SAAS 企業。相關上市公司如焦點科技和中科金財已在 AI Agent 技術應用上有所佈局，推動了智能體技術的發展。

【AiBase提要:】
📌 阿里通義開源 WebSailor，展現出色的推理與檢索能力。
📈 銀河證券指出 AI Agent 經濟全面開啓，建議關注相關 SAAS 企業。
💡 相關公司如焦點科技和中科金財在智能體技術應用上具備明顯優勢。
詳情鏈接:https://github.com/Alibaba-NLP/WebAgent

5、Moonvalley發佈Marey Realism v1.5:原生1080P AI視頻模型，零版權風險引領行業新風向!

Moonvalley推出的Marey Realism v1.5AI視頻生成模型在畫質、創作自由度和法律合規性上實現了全面升級。其原生1080P視頻生成能力、基於授權內容的訓練數據以及精準解讀複雜提示的能力，爲影視製作和廣告創意提供了更安全、高效的工具。

【AiBase提要:】
🎥 原生1080P視頻生成能力，提供接近真實拍攝的視覺體驗。
🔒100%授權數據訓練，徹底規避版權風險。
🔄 支持文本到視頻和圖像到視頻生成，提升創作靈活性。

6、Vidu Q1震撼升級:參考轉視頻支持最多七張圖像，AI視頻生成再創新高

Vidu Q1的‘參考轉視頻’功能允許用戶上傳最多七張參考圖像，生成視覺一致性極高的1080p視頻。該技術通過語義融合確保多圖像元素在視頻中保持一致，解決了傳統AI視頻生成中的場景斷裂或角色失真問題，爲創作者提供了強大的工具。

【AiBase提要:】
🎥 支持最多七張參考圖像，提升視頻創作靈活性
🔍 語義融合技術確保多圖像元素在視頻中保持高度一致
🔄 多主體一致性技術實現複雜場景的連貫視覺體驗

7、蘋果研發類似 ChatGPT AI 客服助手，提升用戶支持體驗

蘋果公司正在開發一款基於人工智能的‘支持助手’，旨在爲用戶提供更智能和高效的客戶服務體驗。該功能已在 Apple Support 應用代碼中被發現，未來將允許用戶在聯繫客服前獲得 AI 生成的解決方案，提高服務效率。

【AiBase提要:】
🍎 蘋果正在開發一款基於 AI 的支持助手，以提升客戶服務效率。
💬 用戶可在聯繫客服前通過 AI 獲得問題解決方案，減少等待時間。
🔄 支持助手可能允許上傳文件，豐富互動體驗。

8、飛書重磅發佈多款AI新品，打造企業級“豆包”

飛書發佈了多款AI產品，包括知識問答、AI會議、Aily、飛書妙搭等，旨在加速AI在企業級應用中的落地。同時，飛書還推出了業界首個AI應用成熟度模型，幫助企業評估AI產品的實際效果。

【AiBase提要:】
🚀 飛書推出多款AI產品，助力企業實現智能化運營。
📊 發佈AI應用成熟度模型，提升企業對AI產品的判斷能力。
📈 飛書多維表格性能與AI能力雙重飛躍，支持大規模數據處理。

9、微軟、OpenAI 與 Anthropic 聯合推出教育工作者 AI 培訓中心

美國教師聯合會（AFT）聯合微軟、OpenAI 和 Anthronic 成立全國人工智能教育學院，旨在爲教師提供免費的AI工具培訓，幫助他們更好地利用人工智能技術。該項目獲得2300萬美元資金支持，推動教育領域的技術變革。

【AiBase提要:】
👩‍🏫 教師將通過AI培訓掌握新技術，確保在教育中的主導地位。
💰 微軟、OpenAI 和 Anthropic 提供2300萬美元資金支持AI教育項目。
📚 AI學院致力於推動教育民主化，確保技術服務於學生和教師。

10、崑崙萬維重磅發佈 Skywork-R1V3.0:跨模態推理能力直逼人類專家!

崑崙萬維發佈 Skywork-R1V3.0，展現出卓越的多模態推理能力，訓練樣本少但表現出色，達到了人類專家水平。

【AiBase 提要:】
1. 🤖 Skywork-R1V3.0在跨模態推理中取得76.0分，超越多款閉源模型。
2. 🔬 該模型使用1.2萬條微調樣本和1.3萬條強化學習樣本進行訓練。
3. 📊 在物理、邏輯和數學推理測試中表現優異，分別獲得52.8分、59.7分和77.1分。

AI日報：阿里通義開源音頻生成模型ThinkSound；谷歌Veo3支態圖片生成視頻；崑崙萬維發佈 Skywork-R1V 3.0

相關AI新聞推薦

YouTube 新規出爐：打擊 AI “垃圾內容”，保護創作者的真實創作！

谷歌醫療AI模型MedGemma系列上新，單個GPU即可運行

谷歌智能手錶迎來AI助手Gemini，圈選搜索功能全新升級

谷歌在 Wear OS 智能手錶上推出 AI 驅動的 Gemini 功能

OpenAI 計劃發佈開放權重模型，打破“閉源”慣例

2025上半年AI API王者爭霸：Gemini稱霸、DeepSeek逆襲，OpenAI爲何掉隊？