本稿では、現在の巨大言語モデル評価システムにおける「スコア競争の乱れ」を分析し、大規模言語モデルのランキングに「どこも第一位」という状況が広く存在することを指摘しています。公開されているベンチマークデータセットは「カンニング」行為を招きやすく、一方、閉鎖的なプライベートデータセットは公平性に影響を与えます。さらに、一部のランキングでは評価基準が科学的で包括的でないという問題もあります。本稿では、権威ある評価システムの構築、公平性を確保するための評価ツールとプロセスのオープンソース化を提案していますが、評価データセットについては、公開された履歴データと閉鎖的な正式データの両方を組み合わせる方法を推奨しています。さらに、大規模言語モデルの商業化は、モデルのパラメータ数やランキングよりもはるかに重要であると述べています。
関連推奨
アリババ・テンユンチエンアプリが四大衛星テレビ春晚を独占広告、AIスマートエージェントが芸術の舞台に初登場
アリババ・テンユンチエンアプリは「春節ごちそう計画」に30億元を投じた後、東方衛星テレビ、浙江衛星テレビ、江蘇衛星テレビおよび河南省衛星テレビの四大マウス年の春晚の独占広告権を獲得した。以前とは異なり、テンユンチエンは番組コンテンツ制作に深く関わる予定で、「AI俳優」としてパフォーマンスに溶け込み、AI映像生成、画像認識およびリアルタイム質問応答などの先端技術を活用し、視聴者にテクノロジー感覚満載の春晚体験を提供する。
アリババQwen2-72B、HELMランキングで首位獲得:Llama3-70Bを上回る性能
先日、スタンフォード大学の巨大言語モデル評価ランキングHELM MMLUが最新のランキングを発表しました。スタンフォード大学基礎モデル研究センター長のPercy Liang氏は、アリババの通義千問Qwen2-72BモデルがLlama3-70Bを上回り、最高の性能を持つオープンソースの大規模言語モデルとなったと発表しました。
テンセント、自社開発基盤モデル「混元」をアップグレードし社内製品に展開
テンセントは広告AIモデルのパラメータを拡張し、ターゲティングとアトリビューションの精度を向上させました。テンセントは自社開発基盤モデルである「混元」をアップグレードし、社内製品に展開しています。テンセントクラウドはMaaS能力を向上させ、複数の製品で大規模モデルを活用しています。混元は広告、ゲーム、コンテンツなどの分野で役割を果たしています。テンセントクラウドは大規模モデルの各業界への応用展開を推進しています。
トーラン賞受賞者を驚かせた!Claude1が30年にわたるガドナーの数学未解決問題を1時間で解く
ガドナーはAIが数週間かけて研究した数学的難題を1時間で解決することに驚嘆しました。このコンピューターサイエンスの巨匠は短い記事の中で、Claude Opus 4.6が彼が30年前まで遡れる数学的な問題を1時間で解いたことを見せ、人工知能が論理推論分野において驚くべき可能性を示していることを明らかにしました。
AIスタートアップをゼロコストで始める:深圳龍崗がOpenClawを重視して支援、最高200万人民元の奨励金
最近、オープンソースのスマートエージェントプロジェクトOpenClawが話題となり、「龍蝦を育てる」ブームを巻き起こした。深圳龍崗区は迅速に反応し、「龍蝦十条」政策を発表し、ゼロコストで始める」というコンセプトで世界中の開発者や個人企業を引きつけ、スマートエージェントの発展を全面的にサポートするサービスを提供している。
