アリグループとinclusionAIが共同開発したMing-Omni：初のオープンソース版マルチモーダルGPT-4o

最近、Inclusion AI と蚂蚁集団は共同で「Ming-Omni」という先進的なマルチモーダルモデルを発表しました。これは新しいインテリジェンス技術のブレークスルーを示しています。Ming-Omni は画像、テキスト、オーディオ、ビデオなどを処理でき、さまざまなアプリケーションに強力なサポートを提供します。その機能には音声や画像生成が含まれるだけでなく、複数のモード入力を統合して処理する能力も備えています。

** 全方位のマルチモーダル処理能力 **

Ming-Omni の設計では、異なるモードのトークン（記号）を抽出するために専用のエンコーダを使用しています。これらのトークンは「Ling」モジュール（つまり混合専門家アーキテクチャ、MoE）によって処理され、新しい提案されたモード固有のルータが搭載されています。これにより、Ming-Omni は複数のモード入力を効率的に処理し、融合させ、追加のモデルや特定タスクの微調整、構造の再編成なしに多岐にわたるタスクをサポートできます。

** 音声と画像生成の革新 **

従来のマルチモーダルモデルと比較すると、Ming-Omni の大きな特長の一つは音声と画像生成のサポートです。先進的なオーディオデコーダを統合することで、自然で流暢な音声を生成することができます。また、高品質の画像生成モデル「Ming-Lite-Uni」を使用することで、画像生成の精巧さを保証しています。さらに、このモデルはコンテキストに応じた対話、テキストから音声への変換、多様な画像編集などを行えるため、多くの分野での適用可能性を示しています。

** スムーズな音声とテキスト変換 **

Ming-Omni の言語処理能力も注目に値します。方言の理解や音声クローン機能を備えており、入力されたテキストを多様な方言の音声出力に変換することができます。これにより、人間と機械とのインタラクションの自然さと柔軟性が向上します。例えば、ユーザーが異なる方言の文章を入力すると、モデルはそれらを理解し、それぞれの方言で応答することが可能です。

** オープンソース化で研究開発を促進 **

注目すべき点として、Ming-Omni は既知のモデルの中で GPT-4o と同等のモードサポートを持つ最初のオープンソースモデルです。Inclusion AI と Ant Group はすべてのコードとモデル重みを公開することを約束しており、コミュニティのさらなる研究開発を促進し、マルチモーダルインテリジェンス技術の進歩を推進することを目指しています。

Ming-Omni の発表は、マルチモーダルインテリジェンス分野に新たな活力を注入し、さまざまなアプリケーションに多くの可能性を提供しました。技術が進化するにつれ、Ming-Omni が将来のインテリジェントインタラクションでより大きな役割を果たすことを期待しています。

プロジェクト: https://lucaria-academy.github.io/Ming-Omni/

AI協力で威力を発揮！スタンフォード研究、医療診断の精度が10％向上

最近、スタンフォード大学の研究チームは、人工知能（AI）が医療診断に与える影響を探るための興味深い実験を行いました。彼らはAIが単なるツールから医師のパートナーとして機能するようになると、医師の診断精度が10％向上することを発見しました。この研究にはアメリカの70人の臨床医が参加し、AIと従来の診断方法の効果を比較しました。画像由AI生成、画像提供サービスMidjourney 実験では、医師とAIが共同で症例を分析し、AIが診断をサポートしました。

メタやオープンAIなどの技術エグゼクティブが米軍のイノベーション部隊に参加

先日、シリコンバレー出身の一部技術エグゼクティブたちが、アメリカ陸軍予備軍に参加し、新設された革新部隊の一員となることを発表しました。この中には、パランティアの最高技術責任者であるシャイム・サンカル、メタの首席技術責任者であるアンドリュー・ボズ・ボズワース、オープンAIのケビン・ワイルとボブ・マクグレウが含まれています。彼らは准士官として制服を着用し、アメリカ軍への技術的なアップデートをもたらすことが目的です。画像提供元:

マイクロソフトが700件のリアルなAI事例を公開－－新たな知能化ワークスタイルを探求

マイクロソフトは、700件の実際のAIエージェントとCopilot事例の公開を発表しました。これらの事例はさまざまな分野から取り上げられており、人工知能が働き方をどのように変革しているかを示しています。グローバルなAI分野のリーダーとして、マイクロソフトは企業や個人がAI技術を更好地理解し活用することを支援してきました。今回の公開された事例では、金融、医療、テクノロジー、教育、自動車製造など多くの業界が含まれており、AIが様々な領域で広く応用されていることが示されています。これらの事例において、アーンスト・アンド・ヤングが顧客向けに構築したエージェントは成功裡に

百度が最大規模のトップAI人材の採用を開始

近頃、百度は正式に「2026年度AIDU計画」を発表しました。この未来のAI技術リーダー人材を育成するエリート採用プロジェクトは再びテクノロジー業界の注目を集めています。百度では、AIDU計画・DeepTalkオープンデイイベントが開催され、多くのAI技術に情熱を持つ若者が参加しました。本年度のAIDU計画では採用ポジションが大幅に拡大し、採用規模は60%以上増加しています。同計画は百度の23の主要な事業分野と11の研究分野をカバーしており、主なポジションには大規模モデルアルゴリズムや大規模モデルインフラストラクチャが含まれます。

腾讯がCVPR2025で混元3D 2.1の大規模モデルを対外的にオープンソースすると発表