最近、中国通信研究院(信通院)は「方升」ベンチマークテストシステム3.0を正式にリリースしました。これは国内の人工知能(AI)評価において新たな大きな進展を示しています。この新バージョンは、これまでの基礎をもとに全面的にアップグレードされており、モデルの基本的な属性テストを追加しただけでなく、パラメータの規模や推論効率などの下位特徴を体系的に評価しています。また、このシステムは前向きに未来の高度な知能テストを構築しており、全モーダル理解、長期記憶、自律学習などの10項目の高度な能力に焦点を当てています。これにより、産業製造、基礎科学、金融など重要な業界に対してより深く現場に即した評価が可能になります。

「方升」3.0をより効果的に実施するために、信通院は複数の面で評価インフラの建設を強化しています。まず、高品質なテストデータリソースの拡充を目指し、新たに300万件のデータを追加して、多言語、多タスク、多シナリオのモデル評価ニーズに対応する予定です。次に、信通院は先進的なテスト方法の研究と応用を体系的に行い、大規模モデル評価における技術的な課題を集中して解決します。例えば、高品質なテストデータの合成と質の評価などが含まれます。さらに、信通院は新世代のスマート評価基盤の構築を行っており、マルチエージェントの相互作用や環境認識のシミュレーションテスト環境を追加することで、複雑なシナリオでのエージェント協調相互作用や動的環境への適応能力の評価に応えます。

2024年から、信通院は2か月ごとに大規模モデルのベンチマークテストを実施します。最新のラウンドでは、141の大きなモデルと7つのエージェントが評価され、基礎能力、推論能力、コードアプリケーション能力、マルチモーダル理解能力が対象となりました。テスト結果によると、OpenAIのGPT-5は総合的な能力で依然としてリードを維持しており、国内のアリババのQwen3-Max-PreviewやMoonshotのKimi K2も優れた成績を収めています。マルチモーダルモデルの評価では、画像理解能力にも突破が見られましたが、複雑な論理推論タスクではまだ改善の余地があります。

また、コードアプリケーション能力のテスト結果を見ても、単純な関数レベルのタスクでは優れた性能を発揮していますが、現実的なプロジェクト開発ではまだ欠点があることがわかります。これは、国内外の技術競争が依然として激しく、エージェントがマルチモーダル理解や複雑な情報処理においてさらなる努力が必要であることを示しています。

信通院は今後も大規模モデル評価技術の研究開発を強化し、評価の信頼性と権威性を高め、人工知能の先端的なイノベーションと新しい工業化の発展を支えていく予定です。