AI日報：阿里Qwen3-TTS上線；可靈 AI上線主體庫

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解：https://app.aibase.com/zh

1、可靈 AI上線主體庫：模型擁有記憶能力角色“永不變臉”

可靈 AI 發佈「主體庫」，爲 O1 多模態視頻模型添加長期記憶能力，實現角色一致性超過 96%，徹底告別 AI 變臉問題。用戶可通過上傳單張角色圖生成 3D 視角補全、多光線變體，並支持跨場景一鍵調用。

【AiBase提要:】
✨ 主體庫三步流程：上傳、補全、調用，提升角色一致性
🎨 AI 智能描述功能，自動提取關鍵詞並提升生成成功率
🚀 主體庫與 O1 模型統一入口，實現文本-圖像-視頻無縫銜接

2、開口即角色！阿里 Qwen3-TTS 登場：49 種音色 + 10 語言 9 方言，WER 碾壓主流商用模型

阿里巴巴推出Qwen3-TTS，具備零樣本、多角色、跨語言特性，顯著優於主流商用引擎，適用於教育、直播、客服等場景。

【AiBase提要:】
🎧 49種高品質音色，覆蓋多種場景
🌐 支持10種語言和9種中國方言
📉 WER顯著優於主流商用模型
詳情鏈接:https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo

3、406B參數空降！騰訊混元2.0發佈，推理性能自稱“國內第一梯隊”

騰訊發佈新一代自研大模型混元2.0，包含Think和Instruct兩個版本，具備強大的推理能力和指令遵循能力。該模型在數學、科學和代碼等複雜任務中表現優異，並已上線騰訊雲API及部分應用。

【AiBase提要:】
🧠 混元2.0採用MoE架構，提升推理速度40%。
📊 Think版在IMO和哈佛-MIT競賽中準確率分別達83.1%與81.7%。
💰 騰訊雲API定價僅爲GPT-4o的45%，支持企業私有化部署。

4、美團重磅開源 6B 參數圖像生成模型 LongCat-Image，中文文字生成與圖像編輯達SOTA水平

美團 LongCat 團隊推出的 LongCat-Image 圖像生成模型以 6B 參數規模實現了高性能與低門檻的結合，尤其在中文文字生成和圖像編輯方面表現出色，達到了開源 SOTA 水平。該模型通過系統性訓練策略和數據工程，確保了多樣化的指令下仍能保持高效性能和準確性。此外，LongCat 團隊希望通過開源構建一個透明、開放、協作的生態系統，鼓勵開發者參與模型的使用與共建。

【AiBase提要:】
🧠 LongCat-Image 模型在圖像編輯領域達到開源 SOTA 水平，展現了強大的指令遵循和視覺一致性能力。
🖋️ 模型針對中文文字生成進行了優化，能夠支持複雜筆畫結構漢字的渲染，滿足多種場景需求。
🎨 LongCat 團隊通過開源方式構建透明、開放的生態系統，鼓勵開發者參與模型共建與使用。
詳情鏈接:https://longcat.ai/

5、京東雲JoyBuilder支持GR00T N1.5千卡訓練，引領具身智能邁向規模化落地

京東雲JoyBuilder平臺通過全棧優化，成功支持GR00T N1.5千卡級訓練，訓練效率提升3.5倍，推動具身智能規模化發展。

【AiBase提要:】
🧠 京東雲JoyBuilder平臺完成關鍵升級，成功支撐GR00T N1.5千卡級訓練。
🚀 平臺在訓練效率上實現3.5倍提升，顯著加速具身智能規模化落地進程。
🌐 支持最新LeRobot訓練數據協議，確立行業領先地位。

6、英偉達4B小模型逆襲！單任務成本竟是 GPT-5 Pro 的 1/36

英偉達的4B小模型 NVARC 在最新 ARC-AGI2 評測中以27.64% 的優異成績擊敗 GPT-5Pro，展示了其強大的性能和成本優勢。NVARC 通過創新的零預訓練方法和合成數據生成策略，顯著提升了模型的適應能力和效率。

【AiBase提要:】
🧠 NVARC 採用零預訓練深度學習方法，避免了傳統大規模數據集的領域偏見和數據依賴問題。
💡 NVARC 利用 GPT-OSS-120B 生成高質量合成謎題，降低實時計算資源需求。
🚀 NVARC 的 TTFT 技術使其能夠快速適應新任務規則，提升模型效率。

7、微博 CEO 迴應 AI 手機能自主發微博仍需確認

微博 CEO 王高飛回應了關於豆包 AI 手機能自主發微博的問題，指出雖然該功能已具備，但仍需用戶確認。同時，豆包 AI 手機在主流應用中面臨登錄問題，引發了對 AI 操作能力的討論。王高飛提到，部分遊戲類應用能檢測到 AI 控制，限制了 AI 助手的使用。

【AiBase提要:】
🤖 微博 CEO 王高飛表示，AI 手機能否自行發微博仍需確認，但已有相關能力。
📱 豆包 AI 手機在主流應用中遭遇登錄限制，引發對其 AI 操作能力的討論。
⚙️ 目前，AI 助手仍需手動操作某些應用，顯示出技術發展的瓶頸和未來的挑戰。

8、微軟推出 VibeVoice-Realtime：實時文本轉語音新模型，助力互動式應用

微軟最新推出的 VibeVoice-Realtime-0.5B 模型是一款輕量級的實時文本轉語音（TTS）系統，支持流式輸入和長篇語音輸出。該模型能夠在300毫秒內開始生成語音，適合用於代理式應用和實時數據講述。其採用交錯窗口設計，優化了延遲並提升了語音合成質量，在 LibriSpeech 測試中取得了2.00%的字錯誤率，表現優越。

【AiBase提要:】
🌟 支持流式文本輸入，可在300毫秒內開始輸出語音，適合實時交互應用。
🛠️ 使用低延遲的聲學標記器，以7.5赫茲的速度生成聲學特徵，優化長篇語音合成。
📈 在 LibriSpeech 測試中，VibeVoice-Realtime 的字錯誤率爲2.00%，表現優越，適合多種應用場景。
詳情鏈接:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

AI日報：阿里Qwen3-TTS上線；可靈 AI上線主體庫

相關推薦

微軟全面引入AI挖掘Windows漏洞，後續安全補丁修復數量將大幅增加

階躍星辰發佈 Step Edge 系列終端模型，實現本地高效多模態處理

商湯開源SenseNova-Vision統一視覺大模型，單模型橫掃四大核心視覺任務

近七成美國民衆渴望共享AI紅利！呼籲設立主權財富基金

Claude Code再進化！內置瀏覽器讓AI自主“刷網頁”

AI日報：阿里Qwen3-TTS上線；可靈 AI上線主體庫

相關推薦

微軟全面引入AI挖掘Windows漏洞，後續安全補丁修復數量將大幅增加

階躍星辰發佈 Step Edge 系列終端模型，實現本地高效多模態處理

商湯開源SenseNova-Vision統一視覺大模型，單模型橫掃四大核心視覺任務

近七成美國民衆渴望共享AI紅利！呼籲設立主權財富基金

​Claude Code再進化！內置瀏覽器讓AI自主“刷網頁”

Claude Code再進化！內置瀏覽器讓AI自主“刷網頁”