ChatGPTブームに伴い、国内外で様々な大規模言語モデルの評価ランキングが発表されていますが、パラメータ規模が近いモデルでも、ランキング順位に大きな違いが見られます。産業界や学界では、この原因として、評価データセットの違いや、主観的な問題の割合増加による評価の公平性への疑問が挙げられています。そのため、OpenCompassやFlagEvalなどの第三者評価機関が注目を集めています。しかし、業界内では、真に包括的で効果的な大規模言語モデルの評価を行うためには、モデルの堅牢性や安全性などの他の次元も考慮する必要があり、現在も模索段階にあるとされています。
関連推奨
智源研究院、JudgeLM 裁判モデルをオープンソース化:様々な大規模言語モデルを評価しスコアを出力
智源研究院は、様々な大規模言語モデルを効率的に評価し、スコアを出力できるJudgeLM裁判モデルをオープンソース化しました。JudgeLMはGPT-4と比較してコストは1/120で、評価結果の一致率は90%以上です。JudgeLMは、純粋なテキスト、マルチモーダルなど様々な評価シーンに適用でき、スコアと根拠を提示します。JudgeLMと正解の一致率は最高90%を超え、人間の評価に近づいています。智源研究院は、更なる研究のために、トレーニングと検証に使用したデータセットも公開しました。
アリババグループ、DevOps分野向けの大規模言語モデル評価基準を発表
アリババグループと北京大学は共同で、DevOps分野向けの大規模言語モデル評価基準を発表しました。この評価基準には、計画、コーディング、ビルド、テスト、リリースなど8つのカテゴリの選択問題4850問が含まれています。また、AIOpsタスクに対する詳細な評価も行われています。評価結果によると、各モデルのスコアに大きな差は見られませんでした。
マイクロソフト、Windowsメモ帳にAI要約機能をテスト導入:選択して要約、テキストの核心を簡単に抽出
最新のニュースによると、マイクロソフトはWindowsオペレーティングシステムのメモ帳アプリで、人工知能に基づく新しい機能である要約生成をテストしています。CanaryおよびDevチャネルのWindowsプレビューエクスペリエンスプログラムでのみ利用可能なこのアップデートは、ユーザーがテキストの内容をより迅速に理解するのに役立つことを目的としています。公開された情報によると、ユーザーはメモ帳で要約する必要があるテキストを選択し、右クリックメニューから「要約」オプションを選択するだけで、AI要約機能を起動できます。メモ帳はその後、その段落の簡潔な概要を自動的に生成します。
次世代AIチップの名称を「ルービン」に決定:暗黒物質の発見で知られる天文学者へのオマージュ
NVIDIA社は先日、次世代AIチップの名称を、著名な天文学者ベラ・ルービン氏の名前にすることにしたと発表しました。1928年、フィラデルフィア生まれのベラ・ルービン氏は、その卓越した業績と科学界への多大な貢献から、今回の命名の輝かしいモデルとなりました。
中国眼科界がAIで革命!AI「小青」登場:24時間、光明を守り、2600万人の緑内障患者に希望の光!
気づかないうちに視力を奪う「緑内障」は、中国で2600万人の視力健康を脅かしています。しかし今、中国眼科界が画期的な対策を打ち出しました!「小青」というAIツールが登場し、国内のトップ医療機関と連携して、緑内障との長期戦に挑み、患者に光明をもたらすべく奮闘しています! 近日、復旦大学附属眼耳鼻喉科医院、中山大学中山眼科中心、北京同仁医院など12の国家レベル医療機関が共同で設立した「緑内障慢病管理センター」が上海で発表されました。
