先日公開された中国語の正確な指示に従う評価基準「SuperCLUE-CPIF」において、百度の文心 X1.1は75.51点という優れた成績を収め、国内の大型モデルの中でトップの位置を獲得しました。この評価にはGPT-5(high)、DeepSeek-V3.2-Exp-Thinking、Claude-Sonnet-4.5-Reasoning、Gemini-2.5-Proなど、国内外で有名な10種類のモデルが含まれており、特に大型言語モデル(LLM)が中国語環境で複雑な指示を実行する能力を評価しています。

SuperCLUE-CPIFの評価では、モデルのタスクタイプや指示数だけでなく、自然言語の指示を具体的な出力に変換する能力にも特に注目しています。今回の評価において、文心 X1.1は実際の生産環境でのパフォーマンスが際立っており、複雑な執筆タスクや多様なシナリオにおける強みを示しています。

image.png

文心 X1.1は、文心大モデル4.5をもとに訓練された深層思考モデルであり、アップグレード过程中でイテレーション式の混合強化学習トレーニングフレームワークを使用しています。これにより、汎用的なタスクやエージェントタスクの効果を向上させるとともに、自己蒸留データを通じたイテレーショントレーニングによって、全体的な性能を継続的に向上させることができます。

実際の応用において、文心 X1.1は内蔵知識とインターネット検索ツールを柔軟に活用し、ユーザーが必要とする情報を正確に捉え、ユーザーのクリエイティブな執筆ニーズを深く理解して、構造が整い、論理的かつ文句のつけようがないコンテンツを出力します。例えば、共有自転車プラットフォームのカスタマーサービス処理において、文心 X1.1はユーザーの感情状態と問題タイプを総合的に考慮して、効率的に問題を解決し、完全で積極的なサービスプロセスを示します。

国内で最初に大規模モデルの開発に取り組んだ企業として、百度は「チップ - フレームワーク - モデル - 応用」のフルスタック自社開発システムを活用し、文心モデルの能力進化を継続的に推進しています。データによれば、文心 X1.1は事実性と指示遵守能力において、その前モデルである文心 X1に対してそれぞれ34.8%および12.5%向上し、エージェントのパフォーマンスは9.6%向上しています。この成果は、国内の大規模モデルの発展にとって新たな基準を樹立したものです。