最近、网易有道は「子曰」大規模モデルの4.0バージョンの全方位的なアップグレードを発表しました。「子曰4」は正式にマルチモーダル時代に入り、テキスト、画像、音声の統合的なインタラクションを全面的にサポートしています。また、有道は核心的な「マルチモーダルモデル」と「音声合成(TTS)モデル」を正式にオープンソース化することを発表しました。同時に、翻訳モデルも深い技術的再構築を行い、翻訳品質と効率が両方向上しました。
マルチモーダルモデルは視覚と数学でSOTAを達成し、純テキストの数学問題でも業界トップレベル
紹介によると、オープンソース化された「子曰4」のマルチモーダルモデルは27Bパラメータ規模で、教育シーン向けに視覚入力による数学や理数系の能力を業界最高水準(SOTA)まで引き上げました。同等のパラメータ規模のモデルの中で、「子曰4」は図表を含む数学問題、物理問題などの高難度の視覚的な理数問題の処理において驚くべき性能を示します。中国語の純テキストの理数問題の性能も大幅に向上し、モデルの正確率は81.4%に達し、業界の先駆けとなっています。

▲ 子曰4は複数の視覚的数理基準で同規模モデルの中でも最良のレベルに達しています
出典: https://huggingface.co/netease-youdao/Confucius4
さらに重要な進歩は実際の導入における「コストパフォーマンス」です。関係者は、新しいモデルが細密な思考プロセスの再構築方式を採用したと説明しています。これにより、大規模で質の高い精製された推論サンプルを集めて深度的な最適化を行い、推論の思考プロセスの出力長を43.2%圧縮することができました。
これは、より少ないToken、より短い推論経路で答えを早く出すことができ、企業や開発者にとって実際のビジネスシナリオでの推論コストを大幅に削減します。

▲ 子曰4は複数の視覚的数理基準で出力Token数を大幅に削減しています
出典: https://huggingface.co/netease-youdao/Confucius4
さらに、子曰の研究チームは国内の学生の実際の宿題、試験、質問のシナリオを深く最適化し、中国の学生が実際に学習中に直面する問題を真正に解決できるようにしました。これにより、より温かみのあるデジタルアシスタントとなることが可能になりました。
オープンソースTTS:14種類の言語をサポート、3秒で元の声をコピー、多言語間では発音の癖がありません
今回のマルチモーダルモデルとともにオープンソース化されたのは、音声合成(TTS)エンジンです。このエンジンは前線的な「音声符号器 + LLM」の構造に基づいて構築されており、開発者およびコンテンツ作成者に対してゼロサンプル、低障壁の音声コピーと感情合成の能力を提供します。
現在、このシステムは中国語、英語、日本語、韓国語、ドイツ語、フランス語、スペイン語、インドネシア語、イタリア語、タイ語、ポルトガル語、ロシア語、マレー語、ベトナム語の14種類の言語を完全にサポートしています。異なる言語間で同一の話者の声色を自然に移行させることができ、追加のトレーニングなしで声色の一貫性を維持できます。また、合成結果は母語レベルの自然さと滑らかさを持ち、多言語間の音声コピーには発音の癖がありません。
音声コピーに関して、子曰4は「アップロードすればすぐにコピーできる」全量サポート機能を実現し、ユーザーは任意の音声素材を提供するだけで、システムが3秒以内に元の声を再現できます。このエンジンは、音声コピーのタスクにおいて正確度が97%以上であり、コピーした声色と元の声との類似度は85%以上です。話し手の独自の声色を保持しながら、その感情を正確に再現でき、総合的な能力はこの分野の第一世代に位置しています。
さらに、このオープンソースモデルは実際の多言語環境で優れた安定性を示しており、日常会話、ニュース放送、企業宣伝などさまざまな文脈や複雑な感情表現に対応できます。
翻訳モデルの品質が全面的に向上し、推論速度は80%増加
有道にとって最も重要な技術資産である翻訳モデルも今回のアップグレードで重要な技術的アップデートを行いました。これにより、翻訳タスクにおいてさらなる性能向上が実現されました。
データ面では、子曰チームは億単位の多言語データを収集・クリーン化し、専門家(英語検定8級取得者)を雇って多角的な人間評価を行いました。これにより、語料の高品質を確保することが可能です。
アルゴリズム面では、モデルは画期的な「多エキスパート OPD 」モードを採用し、よりスマートな「ソフトな方法」で多様な長所を取り入れています。さらに強化学習を導入し、フォーマット報酬と言語検出メカニズムを組み合わせることで、機械翻訳でよくある脱靶や言語混在の問題を効果的に解決しています。
頻繁で高并发の産業用途に対応するため、アップグレード後の翻訳モデルは効率的な加速機構を備え、全体的な推論速度は直接80%向上しました。大規模モデルの自動評価と人間によるランダムなチェックを組み合わせたカスタマイズ可能なプランにより、新世代の翻訳モデルはテキスト、画像、ドキュメント翻訳などの多くのシナリオで、スピードと品質の両方を備えた非常に高い水準を示しています。
有道がAI分野で探求してきた歴史を見直すと、最初に教育分野の大きなモデルとして登場した「子曰」、伝統的な英語スピーキング練習の模式を破った「仮想人の英語スピーキングコーチHi Echo」の発売、そして「子曰」2.0、3.0バージョンがソフトウェアとハードウェアのエコシステムで広く根付いたことなど、有道は常にAIを活用したシーンの最前線を走ってきました。2026年には、有道はアプリケーションの実装を加速し、LobsterAI、有道宝庫、有道同伝エージェント、Thinkflowなどの一連のAIエージェント製品を順次リリースし、全シーンのAIエージェントマトリクスの前向きなレイアウトを実現しました。
「子曰4」のアップグレードと核心モデルの全量オープンソース化は、マルチモーダルと音声合成分野での開発者の利用門檻を大幅に低下させ、業界に下部のコア技術が上部のエージェントマトリクスを育てるエコシステムの閉環を示しました。有道は、世界中の開発者とオープンソースコミュニティが共同で貢献することで、このマルチモーダルの大規模モデルエコシステムがより広範な産業で本格的な生産力の変化を起こすことを願っています。
添付のオープンソースアドレス:
「子曰4」マルチモーダルモデル: https://huggingface.co/netease-youdao/Confucius4
「子曰4」TTSモデル: https://github.com/netease-youdao/Confucius4-TTS
