歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解https://app.aibase.com/zh

1、可靈 AI上線主體庫:模型擁有記憶能力 角色“永不變臉”

可靈 AI 發佈「主體庫」,爲 O1 多模態視頻模型添加長期記憶能力,實現角色一致性超過 96%,徹底告別 AI 變臉問題。用戶可通過上傳單張角色圖生成 3D 視角補全、多光線變體,並支持跨場景一鍵調用。


image.png

【AiBase提要:】

✨ 主體庫三步流程:上傳、補全、調用,提升角色一致性

🎨 AI 智能描述功能,自動提取關鍵詞並提升生成成功率

🚀 主體庫與 O1 模型統一入口,實現文本-圖像-視頻無縫銜接

2、開口即角色!阿里 Qwen3-TTS 登場:49 種音色 + 10 語言 9 方言,WER 碾壓主流商用模型

阿里巴巴推出Qwen3-TTS,具備零樣本、多角色、跨語言特性,顯著優於主流商用引擎,適用於教育、直播、客服等場景。

【AiBase提要:】

🎧 49種高品質音色,覆蓋多種場景

🌐 支持10種語言和9種中國方言

📉 WER顯著優於主流商用模型

詳情鏈接:https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo

3、406B參數空降!騰訊混元2.0發佈,推理性能自稱“國內第一梯隊”

騰訊發佈新一代自研大模型混元2.0,包含Think和Instruct兩個版本,具備強大的推理能力和指令遵循能力。該模型在數學、科學和代碼等複雜任務中表現優異,並已上線騰訊雲API及部分應用。

image.png

【AiBase提要:】

🧠 混元2.0採用MoE架構,提升推理速度40%。

📊 Think版在IMO和哈佛-MIT競賽中準確率分別達83.1%與81.7%。

💰 騰訊雲API定價僅爲GPT-4o的45%,支持企業私有化部署。

4、美團重磅開源 6B 參數圖像生成模型 LongCat-Image,中文文字生成與圖像編輯達SOTA水平

美團 LongCat 團隊推出的 LongCat-Image 圖像生成模型以 6B 參數規模實現了高性能與低門檻的結合,尤其在中文文字生成和圖像編輯方面表現出色,達到了開源 SOTA 水平。該模型通過系統性訓練策略和數據工程,確保了多樣化的指令下仍能保持高效性能和準確性。此外,LongCat 團隊希望通過開源構建一個透明、開放、協作的生態系統,鼓勵開發者參與模型的使用與共建。


image.png

【AiBase提要:】

🧠 LongCat-Image 模型在圖像編輯領域達到開源 SOTA 水平,展現了強大的指令遵循和視覺一致性能力。

🖋️ 模型針對中文文字生成進行了優化,能夠支持複雜筆畫結構漢字的渲染,滿足多種場景需求。

🎨 LongCat 團隊通過開源方式構建透明、開放的生態系統,鼓勵開發者參與模型共建與使用。

詳情鏈接:https://longcat.ai/

5、京東雲JoyBuilder支持GR00T N1.5千卡訓練,引領具身智能邁向規模化落地

京東雲JoyBuilder平臺通過全棧優化,成功支持GR00T N1.5千卡級訓練,訓練效率提升3.5倍,推動具身智能規模化發展。

【AiBase提要:】

🧠 京東雲JoyBuilder平臺完成關鍵升級,成功支撐GR00T N1.5千卡級訓練。

🚀 平臺在訓練效率上實現3.5倍提升,顯著加速具身智能規模化落地進程。

🌐 支持最新LeRobot訓練數據協議,確立行業領先地位。

6、英偉達4B小模型逆襲!單任務成本竟是 GPT-5 Pro 的 1/36

英偉達的4B小模型 NVARC 在最新 ARC-AGI2 評測中以27.64% 的優異成績擊敗 GPT-5Pro,展示了其強大的性能和成本優勢。NVARC 通過創新的零預訓練方法和合成數據生成策略,顯著提升了模型的適應能力和效率。

image.png

【AiBase提要:】

🧠 NVARC 採用零預訓練深度學習方法,避免了傳統大規模數據集的領域偏見和數據依賴問題。

💡 NVARC 利用 GPT-OSS-120B 生成高質量合成謎題,降低實時計算資源需求。

🚀 NVARC 的 TTFT 技術使其能夠快速適應新任務規則,提升模型效率。

7、微博 CEO 迴應 AI 手機能自主發微博仍需確認

微博 CEO 王高飛回應了關於豆包 AI 手機能自主發微博的問題,指出雖然該功能已具備,但仍需用戶確認。同時,豆包 AI 手機在主流應用中面臨登錄問題,引發了對 AI 操作能力的討論。王高飛提到,部分遊戲類應用能檢測到 AI 控制,限制了 AI 助手的使用。

【AiBase提要:】

🤖 微博 CEO 王高飛表示,AI 手機能否自行發微博仍需確認,但已有相關能力。

📱 豆包 AI 手機在主流應用中遭遇登錄限制,引發對其 AI 操作能力的討論。

⚙️ 目前,AI 助手仍需手動操作某些應用,顯示出技術發展的瓶頸和未來的挑戰。

8、微軟推出 VibeVoice-Realtime:實時文本轉語音新模型,助力互動式應用

微軟最新推出的 VibeVoice-Realtime-0.5B 模型是一款輕量級的實時文本轉語音(TTS)系統,支持流式輸入和長篇語音輸出。該模型能夠在300毫秒內開始生成語音,適合用於代理式應用和實時數據講述。其採用交錯窗口設計,優化了延遲並提升了語音合成質量,在 LibriSpeech 測試中取得了2.00%的字錯誤率,表現優越。

【AiBase提要:】

🌟 支持流式文本輸入,可在300毫秒內開始輸出語音,適合實時交互應用。

🛠️ 使用低延遲的聲學標記器,以7.5赫茲的速度生成聲學特徵,優化長篇語音合成。

📈 在 LibriSpeech 測試中,VibeVoice-Realtime 的字錯誤率爲2.00%,表現優越,適合多種應用場景。

詳情鏈接:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B