歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。
新鮮AI產品點擊瞭解:https://app.aibase.com/zh
1、愛詩科技發佈全球首個通用實時世界模型 PixVerse R1,最高1080P 畫質
愛詩科技發佈全球首個通用實時世界模型 PixVerse R1,通過三大核心技術實現虛擬世界的實時交互體驗,並在遊戲、影視、直播等領域拓展出“人人可共創”的新可能。

【AiBase提要:】
🧠 Omni 原生多模態模型作爲現實世界的 “計算基座”,統一多模態內容爲連續 Token 流,生成物理邏輯一致的數字世界。
🔄 自迴歸流式生成機制解決長時序內容一致性問題,實現敘事的 “流式交互”。
⚡ 瞬時響應引擎 IRE提升計算效率,支撐 “即時響應” 的核心體驗。
2、Vidu 發佈 AI 一鍵生成 MV 功能,打造分鐘級“虛擬製片廠”
Vidu 發佈 AI 一鍵生成 MV 功能,標誌着視頻創作進入全自動端到端生成時代,用戶只需提供背景音樂、參考圖像和文本指令,即可在分鐘級別內輸出高質量 MV。該功能通過多智能體系統實現全流程自動化,極大降低了專業視頻創作門檻,爲創作者提供了集成化的虛擬製片廠體驗。

【AiBase提要:】
🎬 全自動多智能體協同:系統內置導演、分鏡、視覺生成及剪輯四大智能體,實現從解析音樂到成片輸出的全流程自動化。
🖼️ 工業級風格一致性:支持最多7張參考圖定位,確保在長達5分鐘的視頻中,角色與場景風格不發生漂移。
🎵 音畫同步精準卡點:AI 能自動識別背景音樂節奏並完成轉場,同時生成逐幀同步的動態字幕,分鐘級即可交片。
3、編程智能體的新標準!MiniMax 發佈 OctoCodingBench 基準測試
文章介紹了MiniMax公司推出的OctoCodingBench開源基準測試,旨在評估編程智能體在代碼倉庫環境中對指令的遵循能力。該基準測試通過測試智能體對七種不同指令來源的遵循程度,提供了一個多維度的評估框架,並採用二元檢查清單的評分機制,使得評估結果更爲準確。此外,OctoCodingBench還支持多個腳手架環境,如Claude Code、Kilo和Droid,這些都是實際生產環境中使用的工具。
【AiBase提要:】
🧠 評估編程智能體對指令的遵循能力
📊 提供多維度的評估框架
🔧 支持多個腳手架環境
詳情鏈接:https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench
4、快手宣佈可靈AI ARR達2.4億美元,12月收入超過2000萬美元
快手科技宣佈可靈AI在2025年12月實現單月營收超過2000萬美元,年化收入運行率(ARR)達到2.4億美元,展現了其在生成式AI市場的強勁增長勢頭。
【AiBase提要:】
🚀 可靈AI月收入突破2000萬美元,年化收入運行率(ARR)達2.4億美元。
🛠️ 技術密集迭代,發佈多款模型提升專業創作效率。
🌍 服務全球超6000萬用戶,商業化落地覆蓋多個領域。
5、國產算力+自主創新架構!智譜聯合華爲開源GLM-Image,首個多模態SOTA模型全鏈路跑通昇騰芯片
智譜AI與華爲聯合開源GLM-Image,該模型在性能上達到國際領先水平,並創下全球首個全流程基於國產AI芯片的多模態大模型紀錄。其採用自迴歸+擴散解碼器混合架構,實現圖文語義深度對齊與聯合推理,推動AIGC從“像素堆砌”邁向“語義驅動”。

【AiBase提要:】
🧠 自迴歸+擴散解碼器混合架構,實現圖文語義深度對齊與聯合推理
🚀 全流程基於國產AI芯片完成,擺脫國外GPU依賴
🌐 推動AIGC從“像素堆砌”邁向“語義驅動”
詳情鏈接:https://github.com/zai-org/GLM-Image
6、全球首款醫療大模型 Baichuan-M3 亮相:超越 GPT-5.2,實力不容小覷!
國產醫療大模型Baichuan-M3正式發佈,成爲全球最強的醫療AI系統。該模型由百川智能推出,專注於醫療場景的應用,融合了大量醫學文獻、臨牀指南、真實病歷以及藥品知識庫,展現了驚人的智能醫療能力。
【AiBase提要:】
🧠 Baichuan-M3醫療大模型參數高達2350億,具備超低幻覺率,確保醫療問診和用藥建議的準確性。
🏥 在問診能力和醫療準確性方面,Baichuan-M3超越GPT-5.2,並優於人類醫生。
🌐 百川智能開源策略鼓勵開發者參與醫療AI創新,推動醫療AI生態共建。
7、谷歌重構電商未來:推出Agentic AI購物系統,Gemini CX+UCP協議實現“搜索即購買”
谷歌推出Agentic AI購物系統,結合Gemini CX與UCP協議,實現從搜索到購買的無縫體驗,重構電商未來。
【AiBase提要:】
✅ 推出Agentic電商解決方案,涵蓋UCP協議與Gemini CX系統,實現一站式購物閉環。
💡 用戶可通過谷歌搜索直接完成購物任務,無需跳轉頁面。
🌐 UCP協議爲AI Agent、商家與電商平臺建立標準化通信橋樑,兼容現有行業標準。
8、谷歌加碼醫療AI開源生態:MedGemma 1.5強化醫學影像能力,同步推出語音轉寫模型MedASR
谷歌發佈新一代開源醫療大模型MedGemma 1.5和語音識別模型MedASR,進一步完善其在醫療垂直領域的技術棧。MedGemma 1.5增強了對醫學影像的理解與分析能力,從純文本問答工具邁向多模態臨牀決策支持系統。MedASR則專注於醫療語音場景,提高電子病歷錄入效率。兩個模型均基於去標識化的臨牀數據訓練,並以開源形式發佈,供全球研究者與開發者使用。

【AiBase提要:】
🧠 MedGemma 1.5強化醫學影像理解與分析能力,支持多模態臨牀決策支持系統。
🗣️ MedASR優化醫療語音識別,提升電子病歷錄入效率。
🔒 谷歌開源模型遵循隱私保護規範,推動AI在基層醫療和科研中的應用。
