ChatGPTブームに伴い、国内外で様々な大規模言語モデルの評価ランキングが発表されていますが、パラメータ規模が近いモデルでも、ランキング順位に大きな違いが見られます。産業界や学界では、この原因として、評価データセットの違いや、主観的な問題の割合増加による評価の公平性への疑問が挙げられています。そのため、OpenCompassやFlagEvalなどの第三者評価機関が注目を集めています。しかし、業界内では、真に包括的で効果的な大規模言語モデルの評価を行うためには、モデルの堅牢性や安全性などの他の次元も考慮する必要があり、現在も模索段階にあるとされています。
関連推奨
智源研究院、JudgeLM 裁判モデルをオープンソース化:様々な大規模言語モデルを評価しスコアを出力
智源研究院は、様々な大規模言語モデルを効率的に評価し、スコアを出力できるJudgeLM裁判モデルをオープンソース化しました。JudgeLMはGPT-4と比較してコストは1/120で、評価結果の一致率は90%以上です。JudgeLMは、純粋なテキスト、マルチモーダルなど様々な評価シーンに適用でき、スコアと根拠を提示します。JudgeLMと正解の一致率は最高90%を超え、人間の評価に近づいています。智源研究院は、更なる研究のために、トレーニングと検証に使用したデータセットも公開しました。
アリババグループ、DevOps分野向けの大規模言語モデル評価基準を発表
アリババグループと北京大学は共同で、DevOps分野向けの大規模言語モデル評価基準を発表しました。この評価基準には、計画、コーディング、ビルド、テスト、リリースなど8つのカテゴリの選択問題4850問が含まれています。また、AIOpsタスクに対する詳細な評価も行われています。評価結果によると、各モデルのスコアに大きな差は見られませんでした。
Anthropic CEO:AIが今後3~6ヶ月でプログラミング作業の90%を完了
Anthropic社のCEO、ダリオ・アモダイ氏は、米国外交委員会のフォーラムで、今後3~6ヶ月以内に人工知能がプログラミング作業の90%を完了すると確信していると述べました。アモダイ氏は、12ヶ月以内には人工知能がほぼ全てのコード作成を可能になる可能性があると述べ、大きな注目を集めています。当時、外交委員会委員長のマイク・フロマン氏も...
シリコンベース・リキッド、新たな資金調達ラウンドを完了 美団が参入、智譜が撤退
天眼查Appによると、北京シリコンベース・リキッド科技有限公司は最近、重大な工商登記変更があった。今回の変更で、北京智譜華章科技有限公司が株主から撤退し、同時に4つの投資家が新たに加わった。美団傘下の天津三快科技有限公司、北京星連鼎森股権投資基金合夥企業(有限合夥)、南京緑涌錦航股権投資管理合夥企業(有限合夥)、中小企業発展基金普華(杭州)創業投資合夥企業(有限合夥)である。今回の資金調達後、シリコンベース・リキッドの登録資本金は約1375.8万元から変更された。
Domo AI、i2vモデルをアップグレード:安定性とプロンプト理解能力が大幅に向上
Domo AIは先日、画像から動画への変換(i2v)モデルの大幅なアップデートを発表しました。Xプラットフォームの最新情報によると、今回のアップデートでは安定性と生成速度が大幅に向上し、プロンプトの理解能力も著しく向上したことで、ユーザーはより効率的で便利な創作体験を得られるようになりました。Domo AIのi2vモデルの今回のアップグレードは、安定性と速度において大きな利点があり、最も重要なのはプロンプトの遵守と理解能力の大幅な改善です。さらに、新モデルで生成されたコンテンツは、ユーザーが直接様々なスタイルに変換できることも発表されました。
