近日,網易有道宣佈“子曰”大模型迎來4.0版本的全方位升級。“子曰4" 正式邁入全模態時代,不僅全面支持文本、圖片、音頻的融合交互,有道更宣佈將核心的“多模態模型”與“語音合成(TTS)模型”正式開源。與此同時,翻譯模型也迎來了深度的技術重構,翻譯質量與效率實現雙重提升。

多模態模型視覺與數理斬獲SOTA,純文本數理難題性能行業領先

據介紹,開源的“子曰4”多模態模型在27B 參數規模上,面向教育場景,將支持視覺輸入的數理能力拉到了行業頂尖水平(SOTA)。在同等參數規模的模型中,“子曰4”在處理帶圖表的數學題、物理題等高難度視覺數理問題上表現驚豔。中文純文本數理難題的性能也獲得顯著提升,模型準確率達81.4%,達到行業領先水平。

文章配圖-1

▲ 子曰4在多個視覺數理基準上達到同規模模型中最佳水平

圖片來源: https://huggingface.co/netease-youdao/Confucius4

更爲關鍵的突破在於實際落地的“性價比”。相關負責人介紹,新模型採用了精細化思維鏈重構方案,通過匯聚大規模優質精簡的推理樣本進行深度優化,成功將推理思維鏈輸出長度壓縮了43.2%。

這意味着它可以用更少的 Token、更短的推理路徑更快地給出答案,爲企業和開發者大幅降低了實際業務場景中的推理成本。

文章配圖-1

▲ 子曰4在多個視覺數理基準上大幅降低了輸出token的數量

圖片來源: https://huggingface.co/netease-youdao/Confucius4

此外,子曰研發團隊針對國內學生真實的作業、考試和提問場景進行了深度優化,讓它能夠真正解決中國學生在實際學習中遇到的真實問題,成爲更有溫度的數字化助手。

開源TTS:支持14種語言,3秒克隆原聲,跨語種不再有口音

此次與多模態模型一同開源的還有語音合成(TTS)引擎 ,該引擎基於前沿的“語音編碼器 + LLM”架構打造,面向開發者及內容創作者提供零樣本、低門檻的語音克隆與情感合成能力。

目前,它已全面支持中文、英語、日語、韓語、德語、法語、西班牙語、印尼語、意大利語、泰語、葡萄牙語、俄語、馬來語及越南語共14種語言。系統可支持不同語言間同一說話者音色的自然遷移,無需額外訓練即可保持音色一致性,且合成結果具備母語級別的自然度與流暢度,跨語種克隆也沒有口音泄露問題。

在聲音克隆方面,子曰4實現了“上傳即可克隆”的全量支持能力,用戶僅需提供任意音頻素材,系統即可在三秒內完成原聲複製。據介紹,該引擎在克隆任務中的準確度超過97%,克隆音色與原聲的相似度達85% 以上。在保留說話人獨特音色的同時,還可精準還原其情感色彩,綜合能力達到該領域第一梯隊。

此外,該開源模型在真實多語言場景中展現出較好的穩健性,可應對日常對話、新聞播報、企業宣傳等不同語境及複雜情感表達等多種合成需求。

翻譯模型質量全面升級,推理速度提升80%

作爲有道最爲深厚的技術資產,翻譯模型在本次升級中也迎來了重要的技術升級,使其在翻譯任務中表現進一步提升。

在數據層面,子曰團隊收集並清洗了上億級別的多語言數據,並聘請具有專八認證的專業人員進行多維度人工評估,從源頭保證語料的高品質。

在算法層面,模型採用了創新的“多專家 OPD ”模式,用一種更聰明的“軟方式”博採衆長,同時通過強化學習引入格式獎勵和語言檢測機制,有效解決了機翻常見的脫靶和語種混出問題。

爲了應對高頻、高併發的產業級應用,升級後的翻譯模型配備了高效的加速機制,使得整體推理速度直接飆升80%。配合大模型自動評測與人工隨機抽檢相結合的定製化方案,新一代翻譯模型在文本、圖片和文檔翻譯等多場景下,都展現出了兼具速度與質量的極高水準。

回望有道在AI領域的探索歷程,從最初子曰以首個教育垂直大模型姿態亮相、推出顛覆傳統口語練習模式的“虛擬人口語教練Hi Echo”,到“子曰”2.0、3.0版本在軟硬件生態中的全面紮根,有道始終走在 AI 賦能場景的最前沿。2026年,有道更是按下了應用落地的加速鍵,陸續發佈了LobsterAI、有道寶庫、有道同傳Agent、Thinkflow等一系列AI Agent產品,實現了全場景 AI Agent 矩陣的前瞻性佈局。

“子曰4” 的升級與核心模型全量開源,不僅大幅降低了開發者在多模態與語音合成領域的應用門檻,也向行業展示了以底層核心技術滋養上層 Agent 矩陣的生態閉環。有道希望,隨着全球開發者與開源社區的共同注入,這一套全模態大模型生態將在更廣泛的產業中激發出真正的生產力變革。

附開源地址:

“子曰4”多模態模型:https://huggingface.co/netease-youdao/Confucius4

“子曰4“TTS模型:https://github.com/netease-youdao/Confucius4-TTS