最近、网易有道は正式に「子曰」大モデル4.0バージョンを公開し、このシリーズモデルが完全な「マルチモーダル」時代に入ったことを示しました。今回のアップグレードは、テキスト、画像、音声の効率的な統合と相互作用を実現しただけでなく、「完全オープンソース」の姿勢で開発者コミュニティにそのコア技術資産を貢献し、AIの実装コストとハードルを低減する意図を持っています。
コア技術の突破:マルチモーダルと深い再構築
「子曰4.0」のコア性能向上は以下の3つの次元で主に実現されています:
マルチモーダル統合相互作用: モデルはテキスト、視覚、聴覚情報の統一表現と処理を実現しており、ユーザーが複数のメディア間で自然に切り替えることができ、複雑な指示の理解やマルチメディアコンテンツの即時生成においても大幅に向上しています。
数学論理のSOTA: 27Bパラメータ規模において、「子曰4.0」は数学的論理と推論タスクで業界トップ(SOTA)レベルに達しました。正確性と論理の厳密さともに大きく向上しています。
翻訳エンジンの再構築: 有道の看板技術として知られる翻訳モデルは、深い下層技術の再構築を通じて、効率的な推論を維持しながらも翻訳品質に飛躍的な進歩を遂げました。これにより、言語間のやり取りの滑らかさが大幅に改善されました。
戦略的なオープンソース:AIの実装エコシステムの加速
これまでの業界での一般的な「クローズドソース」のアプローチとは異なり、网易有道はコア技術能力をコミュニティに戻すことを選びました:
マルチモーダルモデルとTTSエンジン: 有道は、核心的なマルチモーダル処理モデルと高性能な音声合成(TTS)エンジンを正式にオープンソース化しました。そのうちTTSエンジンは「3秒間の感情クローン」という競争力のある機能を備えており、少量の音声素材で非常に人間らしい音声カスタマイズが可能になります。これにより、企業向けアプリケーションの開発ハードルが大幅に低下します。
思考チェーン(CoT)の再構築: 有道はモデル内部の思考チェーンロジックを再構築し、推論プロセスにおける計算リソースの消費を大幅に削減しました。これにより、開発者に「パフォーマンス」と「実装コスト」の両方を考慮したオープンソースソリューションを提供しています。
業界的な意味合い:製品革新からエコシステム構築へ
网易有道の今回の完全オープンソースは、国内の大規模モデル競争における重要な転機と見なされています。ユーザーに「音声+視覚+論理推論」の基盤能力を開放することで、有道はその技術影響力を単なる教育アプリケーションの領域からより広範な汎用シナリオへ拡大しようとしています。
