歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://top.aibase.com/

1、阿里通義開源支持鏈式推理的音頻生成模型ThinkSound

阿里語音AI團隊開源了全球首個支持鏈式推理的音頻生成模型ThinkSound,該模型通過引入思維鏈技術,突破傳統視頻轉音頻技術的侷限,實現高保真、強同步的空間音頻生成。這一技術進步標誌着AI音頻從“看圖配音”向“結構化理解畫面”的跨越。

image.png

【AiBase提要:】

🧠 ThinkSound首次將多模態大語言模型與統一音頻生成架構結合,實現精準音頻合成。

📊 研究團隊構建了包含2531.8小時高質量樣本的AudioCoT數據集,提升模型處理複雜指令的能力。

🚀 ThinkSound在多個測試集中表現優於主流方法,代碼和預訓練權重已開源,開發者可免費獲取。

詳情鏈接:https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound

2、谷歌Veo3重磅升級,支持靜態圖片生成生動視頻

谷歌宣佈對 AI 視頻生成工具 Veo3進行重磅升級,用戶只需上傳一張靜態照片即可生成高質量的音頻和視頻內容,展示了 AI 在創作領域的巨大潛力。Veo3的核心功能包括保持角色在多個鏡頭下的一致性,並提供豐富的運鏡功能,如推鏡頭。此外,用戶可以選擇不同質量的生成模型,但需要消耗相應的 credits。

image.png

【AiBase提要:】

🖼️ Veo3升級後支持從單張靜態圖片生成高質量動態視頻。

🎥 支持運鏡功能,如推鏡頭(Dolly in),提升視頻專業性。

🔊 用戶可選擇不同質量模型,但需消耗相應 credits 資源。

3、Hugging Face發佈新一代小參數模型 SmolLM3:128K上下文,雙模式推理

Hugging Face發佈了SmolLM3,一款具有30億參數的小型開源模型,其性能優於Llama-3.2-3B和Qwen2.5-3B。該模型支持多種語言處理,並具備雙模式推理功能,同時公開了架構細節以促進研究與優化。

image.png

【AiBase提要:】

🧠 SmolLM3擁有30億參數,性能超越同類開源模型,支持多語言處理。

⚙️ 提供深度思考和非思考兩種推理模式,靈活應對不同需求。

📊 採用先進的transformer解碼器架構,通過三階段混合訓練提升能力。

詳情鏈接:https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

4、阿里開源 WebSailor,具備強大的推理和檢索能力

阿里通義開源了網絡智能體 WebSailor,其在中英文任務的 BrowseComp 評測集中表現出色,超越了 DeepSeek R1和 Grok-3等閉源模型,展現了強大的推理和檢索能力。銀河證券指出 AI Agent 經濟已全面開啓,並建議關注佈局領先的 SAAS 企業。相關上市公司如焦點科技和中科金財已在 AI Agent 技術應用上有所佈局,推動了智能體技術的發展。

image.png

【AiBase提要:】

📌 阿里通義開源 WebSailor,展現出色的推理與檢索能力。

📈 銀河證券指出 AI Agent 經濟全面開啓,建議關注相關 SAAS 企業。

💡 相關公司如焦點科技和中科金財在智能體技術應用上具備明顯優勢。

詳情鏈接:https://github.com/Alibaba-NLP/WebAgent

5、Moonvalley發佈Marey Realism v1.5:原生1080P AI視頻模型,零版權風險引領行業新風向!

Moonvalley推出的Marey Realism v1.5AI視頻生成模型在畫質、創作自由度和法律合規性上實現了全面升級。其原生1080P視頻生成能力、基於授權內容的訓練數據以及精準解讀複雜提示的能力,爲影視製作和廣告創意提供了更安全、高效的工具。

image.png

【AiBase提要:】

🎥 原生1080P視頻生成能力,提供接近真實拍攝的視覺體驗。

🔒100%授權數據訓練,徹底規避版權風險。

🔄 支持文本到視頻和圖像到視頻生成,提升創作靈活性。

6、Vidu Q1震撼升級:參考轉視頻支持最多七張圖像,AI視頻生成再創新高

Vidu Q1的‘參考轉視頻’功能允許用戶上傳最多七張參考圖像,生成視覺一致性極高的1080p視頻。該技術通過語義融合確保多圖像元素在視頻中保持一致,解決了傳統AI視頻生成中的場景斷裂或角色失真問題,爲創作者提供了強大的工具。

【AiBase提要:】

🎥 支持最多七張參考圖像,提升視頻創作靈活性

🔍 語義融合技術確保多圖像元素在視頻中保持高度一致

🔄 多主體一致性技術實現複雜場景的連貫視覺體驗

7、蘋果研發類似 ChatGPT AI 客服助手,提升用戶支持體驗

蘋果公司正在開發一款基於人工智能的‘支持助手’,旨在爲用戶提供更智能和高效的客戶服務體驗。該功能已在 Apple Support 應用代碼中被發現,未來將允許用戶在聯繫客服前獲得 AI 生成的解決方案,提高服務效率。

【AiBase提要:】

🍎 蘋果正在開發一款基於 AI 的支持助手,以提升客戶服務效率。

💬 用戶可在聯繫客服前通過 AI 獲得問題解決方案,減少等待時間。

🔄 支持助手可能允許上傳文件,豐富互動體驗。

8、飛書重磅發佈多款AI新品,打造企業級“豆包”

飛書發佈了多款AI產品,包括知識問答、AI會議、Aily、飛書妙搭等,旨在加速AI在企業級應用中的落地。同時,飛書還推出了業界首個AI應用成熟度模型,幫助企業評估AI產品的實際效果。

【AiBase提要:】

🚀 飛書推出多款AI產品,助力企業實現智能化運營。

📊 發佈AI應用成熟度模型,提升企業對AI產品的判斷能力。

📈 飛書多維表格性能與AI能力雙重飛躍,支持大規模數據處理。

9、微軟、OpenAI 與 Anthropic 聯合推出教育工作者 AI 培訓中心

美國教師聯合會(AFT)聯合微軟、OpenAI 和 Anthronic 成立全國人工智能教育學院,旨在爲教師提供免費的AI工具培訓,幫助他們更好地利用人工智能技術。該項目獲得2300萬美元資金支持,推動教育領域的技術變革。

【AiBase提要:】

👩‍🏫 教師將通過AI培訓掌握新技術,確保在教育中的主導地位。

💰 微軟、OpenAI 和 Anthropic 提供2300萬美元資金支持AI教育項目。

📚 AI學院致力於推動教育民主化,確保技術服務於學生和教師。

10、崑崙萬維重磅發佈 Skywork-R1V3.0:跨模態推理能力直逼人類專家!

image.png

崑崙萬維發佈 Skywork-R1V3.0,展現出卓越的多模態推理能力,訓練樣本少但表現出色,達到了人類專家水平。

【AiBase 提要:】

1. 🤖 Skywork-R1V3.0在跨模態推理中取得76.0分,超越多款閉源模型。

2. 🔬 該模型使用1.2萬條微調樣本和1.3萬條強化學習樣本進行訓練。

3. 📊 在物理、邏輯和數學推理測試中表現優異,分別獲得52.8分、59.7分和77.1分。