人工知能スタートアップ企業のHugging Faceは最近、IDEFIXという名前のオープンソースのマルチモーダルAIモデルを発表しました。
IDEFIXは画像とテキストの入力を処理し、首尾一貫したテキスト出力を生成できます。
IDEFIXは、ビジョン言語モデルFlamingoをベースに構築されており、ウィキペディア、公開マルチモーダルデータセット、LAIONなど、さまざまなオープンデータセットを使用してトレーニングされました。
独自開発のモデルと比較して、IDEFIXはさまざまな画像テキスト理解評価において非常に優れたパフォーマンスを示しています。
これは、マルチモーダルAIのオープンソースモデルにおける重要な進歩を示しています。