AI日報：騰訊重磅發佈混元圖像3.0；快手發佈KAT系列Agentic Coding大模型；蘋果悄然研發ChatGPT式應用

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解：https://app.aibase.com/zh

1、快手發佈KAT系列Agentic Coding大模型代碼表現出色

快手旗下的 Kwaipilot 團隊發佈了兩款革命性的大模型 —— KAT 系列中的 KAT-Dev-32B 和 KAT-Coder。這兩款模型在 Code Intelligence 領域表現出色，分別針對不同的用戶需求和應用場景。KAT-Dev-32B 在 SWE-Bench Verified 測試中解決率達到了62.4%，而 KAT-Coder 的解決率則高達73.4%。

【AiBase提要:】
🧠 KAT-Dev-32B 是一個開源的32億參數模型，解決率達到了62.4%。
💻 KAT-Coder 作爲閉源旗艦模型，解決率高達73.4%，表現卓越。
🌐 KAT-Dev-32B 已在 Hugging Face 平臺上線，KAT-Coder 可通過 StreamLake 平臺獲取 API 調用。
詳情鏈接:https://kwaipilot.github.io/KAT-Coder/

2、騰訊重磅發佈 “混元圖像 3.0”，開創多模態圖像生成新時代

騰訊重磅發佈“混元圖像3.0”，標誌着其在多模態圖像生成領域的重大突破，爲人工智能生成內容（AIGC）技術的發展注入了新的活力。

【AiBase提要:】
🧠 混元圖像3.0是首個開源的工業級多模態生圖模型，具備強大的語義解析能力。
🚀 3.0版本在2.0基礎上進一步增強了模型的複雜性與表現力，實現毫秒級響應速度和超寫實圖像質量。
💡 騰訊混元系列已形成完整的AIGC技術矩陣，涵蓋3D生成、定製化圖像生成等工具，推動行業創新。

3、蘋果悄然研發ChatGPT式應用，Siri即將重大改版

蘋果公司正在研發一款類似 ChatGPT 的 iPhone 應用，用於測試 Siri 的重大改版。該應用將提升 Siri 在個人數據搜索和操作方面的效率，同時增強其語音識別和理解能力，爲用戶提供更智能、人性化的服務。

【AiBase提要:】
🍎 Siri 將通過新應用提升搜索和操作能力，如查找歌曲和編輯照片。
🤖 蘋果正在開發類似 ChatGPT 的應用，用於測試 Siri 的全新功能。
📈 未來 Siri 的語音識別和理解能力將顯著提升，提供更自然的對話體驗。

4、谷歌更新Gemini 2.5 Flash Lite，成爲最快的專有模型

谷歌對Gemini系列大型語言模型進行了重要更新，尤其是Gemini2.5Flash和Flash Lite，強調了速度和效率的提升。這些改進展示了谷歌在AI領域的持續進步，併爲開發者提供了更多靈活性。

【AiBase提要:】
🌟 Gemini2.5Flash Lite 成爲最快的專有模型，輸出速度達每秒887個 token。
🚀 新模型在輸出質量和成本效率上顯著提升，尤其是 Flash Lite 減少了50% 的輸出 token。
🗣️ Gemini Live 的更新增強了語音助手的功能，提高了函數調用的準確性和自然對話的能力。

5、蘋果推出新圖像模型 Manzano 實現理解與生成雙重能力

蘋果公司推出的 Manzano 圖像模型能夠同時處理圖像理解和生成，解決了當前開源模型在兩者之間選擇的難題。該模型採用混合圖像標記器，減少了衝突，並在文本密集型任務中表現出色。

【AiBase提要:】
🌟 Manzano 是一種新型圖像模型，能夠同時進行圖像理解和生成。
🔍 蘋果的研究顯示，Manzano 在處理複雜文本任務時表現優異，接近商業系統的水平。
⚙️ 該模型採用混合圖像標記器，減少了圖像理解與生成之間的衝突。
詳情鏈接:https://arxiv.org/abs/2509.16197

6、YouTube Music測試AI音樂主播功能：提供曲目故事和粉絲趣聞，正面迎戰Spotify AI DJ

YouTube Music正在測試AI音樂主播功能，爲用戶播放的音樂提供相關故事、粉絲趣聞和評論解說。這一功能是對Spotify AI DJ的迴應，旨在提升用戶的沉浸式聽覺體驗。

【AiBase提要:】
🎥 YouTube Music推出AI音樂主播功能，爲用戶提供音樂背後的故事和趣味內容。
🎧 Spotify的AI DJ已提供語音評論，YouTube Music試圖通過類似功能進行競爭。
🌐 YouTube Labs向所有用戶開放，但目前僅限部分美國用戶參與測試。

7、從粗糙幾何到逼真3D視頻：VideoFrom3D重塑圖形設計新紀元

文章介紹了VideoFrom3D框架，這是一種通過融合圖像和視頻擴散模型來生成高度逼真且風格一致的3D場景視頻的技術。該框架無需依賴昂貴的配對3D數據集，極大地簡化了設計流程，提升了生成效率，並在複雜動態場景下表現出色。

【AiBase提要:】
🧠 稀疏錨視圖生成（SAG）模塊利用圖像擴散模型，基於參考圖像和粗糙幾何，生成高質量的跨視圖一致錨視圖。
🎥 幾何引導生成插幀（GGI）模塊藉助視頻擴散模型，在錨視圖基礎上插值中間幀，實現流暢的運動和時間一致性。
🚀 VideoFrom3D無需依賴昂貴的配對3D數據集，極大簡化了設計流程，讓設計師和開發者能夠更高效地探索創意並快速產出高質量成果。
詳情鏈接:https://kimgeonung.github.io/VideoFrom3D/

8、Moondream3.0發佈，多項基準測試超越了 GPT-5 等頂尖模型

Moondream3.0憑藉其高效的混合專家架構和輕量化設計，在視覺推理能力上表現出色。它在多個基準測試中超越了GPT-5、Gemini和Claude4等頂級模型，展現了強大的性能。此外，該模型支持開放詞彙物體檢測、結構化輸出以及多場景應用，如安防監控、醫學影像和文檔處理。開源特性使其易於部署和使用，適合邊緣計算環境。

【AiBase提要:】
🧠 Moondream3.0採用高效混合專家架構，僅激活2億參數，實現輕量化設計。
🔍 支持開放詞彙物體檢測和結構化輸出，適用於多種複雜場景。
💻 開源設計，適合邊緣計算，開發者可輕鬆解鎖其強大功能。

AI日報：騰訊重磅發佈混元圖像3.0；快手發佈KAT系列Agentic Coding大模型；蘋果悄然研發ChatGPT式應用

相關推薦

BrowseComp被刷到90%後，美團LongCat甩出LoHoSearch：前沿模型集體跌回三成出頭

崑崙萬維把 2026 定爲世界模型元年：Matrix-Game 3. 5 單卡實時生成，5B模型跑出20FPS

Google DeepMind發佈GenCeption:基於視頻生成模型實現多項計算機視覺突破

神珍科學多模態基礎模型在滬亮相： 110 億參數打通六類科學數據，一個模型讀懂DNA到氣象場

Kimi因算力緊缺暫停C端新用戶訂閱，全速推進集羣擴容