革新的オープンソースAIモデルMolmo、業界の巨人らを凌駕し、GPT-4oやClaude 3.5を上回る

先日、アレン人工知能研究所（Ai2）は、新しいオープンソースのマルチモーダルAIモデルファミリーであるMolmoを発表しました。その性能は非常に高く、複数の第三者ベンチマークテストにおいて、OpenAIのGPT-4、AnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5を上回る結果を示しました。

Molmoはユーザーがアップロードした画像の分析に対応するだけでなく、「競合他社よりも1000倍少ないデータ」を使用してトレーニングされています。これは、独自のトレーニング手法によるものです。

今回の発表は、Ai2のオープンリサーチへのコミットメントを示すもので、高性能なモデルと、オープンな重みとデータを提供し、より広範なコミュニティや企業が利用できるようにすることを目的としています。Molmoファミリーには、Molmo-72B、Molmo-7B-D、Molmo-7B-O、MolmoE-1Bの4つの主要なモデルが含まれており、その中でもMolmo-72Bは72億個のパラメータを持つフラッグシップモデルとして、特に優れた性能を示しています。

様々な評価によると、Molmo-72Bは11個の重要なベンチマークテストで最高点を獲得し、ユーザーの好みにおいてはGPT-4に次ぐ結果となりました。Ai2はまた、OLMoEモデルも発表しており、「小型モデルの組み合わせ」を採用することで、コスト効率の向上を目指しています。

Molmoのアーキテクチャは、効率性と優れた性能を実現するために綿密に設計されています。すべてのモデルは、OpenAIのViT-L/14336px CLIPモデルをビジュアルエンコーダーとして使用し、多尺度の画像を視覚トークンに変換します。言語モデル部分は、異なる容量とオープン性を備えたデコーダーTransformerです。

トレーニングに関しては、Molmoは2段階のトレーニングを実施しました。まずマルチモーダル事前学習を行い、次に教師あり微調整を行います。多くの最新のモデルとは異なり、Molmoは人間のフィードバックによる強化学習に依存せず、綿密に調整されたトレーニングプロセスを通じてモデルパラメータを更新します。

Molmoは、複数のベンチマークテストで優れた性能を示しており、特に文書読解や視覚推論などの複雑なタスクにおいてその強力な能力を発揮しています。Ai2は既にHugging Face上でこれらのモデルとデータセットを公開しており、今後数ヶ月間でさらに多くのモデルと拡張技術レポートを発表し、研究者へのリソース提供を目指しています。

Molmoの機能について詳しく知りたい場合は、Molmoの公式ウェブサイトで公開デモを試すことができます（https://molmo.allenai.org/）。

要点：
🌟 Ai2のMolmo、オープンソースのマルチモーダルAIモデルが業界トップ製品を凌駕。
📊 Molmo-72Bは複数のベンチマークテストで卓越した性能を示し、GPT-4に次ぐ結果。
🔍 高いオープン性、モデルとデータセットは研究者らが自由に使用可能。

オープンソース多モーダルモデルMolmo、画像内の物体を認識し正確な説明を生成

最近、Molmoというオープンソースの多モーダルAIモデルが業界で大きな注目を集めています。OpenAIのCLIPをビジョン処理エンジンとして使用し、Qwen2-72BをベースとしたこのAIシステムは、その優れた性能と革新的な機能で、従来の商用モデルの覇権に挑戦しています。Molmoの顕著な特徴はその高い性能です。比較的サイズが小さいにもかかわらず、処理能力は10倍規模の競合他社に匹敵します。この小さくても強力な設計思想は、モデルの効率性を高めることに貢献しています。

カリフォルニア州知事、AI生成コンテンツを規制する9法案に署名

AI技術は、便利さをもたらす一方で、リスクも伴う両刃の剣です。これらのリスクをより適切に管理するために、カリフォルニア州知事ギャビン・ニューサム（Gavin Newsom）は最近、AI生成コンテンツ、特にディープフェイク（deepfakes）現象を規制する9法案に署名しました。画像注記：画像はAIによって生成され、画像ライセンスプロバイダーMidjourneyによって提供されています。これらの法案の中で、SB1047法案は特に注目に値します。この法案は、AI開発者が安全対策を講じることを義務付けています。

テクノロジーと自動車の融合：魅族が新型AI搭載スマホを発表、領克と協力してeスポーツカーを制作

先日、北京にて星紀魅族AIエコシステム発表会が開催されました。この発表会では、魅族の最新テクノロジー製品が披露されただけでなく、異業種コラボレーションによる見事なショーケースとなり、テクノロジー愛好家と自動車愛好家の双方に驚きをもたらしました。発表会の注目点は、魅族が発表したLucky08AIスマートフォンです。このスマートフォンは、優れたデザインに加え、機能面でも飛躍的な進歩を遂げています。搭載されたAIアシスタントは、スマートフォンの分野における大きなブレイクスルーと言えるもので、ユーザーに包括的なインテリジェントアシスタンスを提供し、ユーザーエクスペリエンスを大幅に向上させます。

AIコンパニオンNomi、OpenAIに挑戦：より深い感情的なサポートを提供

OpenAIがそのo1モデルを継続的に改良する中、Nomi AIのような小規模なスタートアップ企業も同様の技術を開発していますが、AIコンパニオンへの応用により重点を置いています。Nomiのチャットボットはユーザーとのやり取りを記憶し、ユーザーが経験を共有する際に、より繊細な反応を示します。NomiはLLMを内部開発し、それをトレーニングしてコンパニオンサービスを提供していますが、そのプロセスはいくらか異なります。もし誰かがNomiに、仕事で大変な一日を過ごしたと告げると、Nomiはそのユーザーが以前にチームの誰かと共有した経験を思い出すかもしれません。

Gemini搭載のスマートオートメーション機能、Google Workspaceに間もなく登場