アップル社とコーネル大学は、「Ferret」というオープンソースのマルチモーダル機械学習モデルを共同で発表しました。Ferretは、画像内の任意の位置にある要素を参照し、特定できるシステムです。ユーザーの問い合わせで役立つ要素を識別し、適切な応答を行うことができます。
今回の発表は、アップル社のAI開発におけるよりオープンな姿勢を示しており、影響力のあるAI研究へのコミットメントを証明するものです。

アップル社とコーネル大学は、「Ferret」というオープンソースのマルチモーダル機械学習モデルを共同で発表しました。Ferretは、画像内の任意の位置にある要素を参照し、特定できるシステムです。ユーザーの問い合わせで役立つ要素を識別し、適切な応答を行うことができます。
今回の発表は、アップル社のAI開発におけるよりオープンな姿勢を示しており、影響力のあるAI研究へのコミットメントを証明するものです。
北京モーターショーでは、前DeepSeekのマルチモーダル技術の中心研究者であるルン・チョン氏が元戎啓行のシニアサイエンティストとして登場し、同社の自動運転技術の方向性転換を示した。CEOのチュウ・ファン氏は、マルチモーダルの大モデルが2026年初頭に突破を遂げ、大モデルを基盤とした自動運転の道筋には明確な優位性があり、従来の技術を上回ると語った。
小米は4月23日にMiMo-V2.5シリーズの大型モデルを発表し、ベータテストを開始しました。このシリーズには4つのモデルが含まれており、そのうち中心となるモデルであるMiMo-V2.5-ProとMiMo-V2.5は世界中でオープンソース化され、AIエコシステムの開放を推進する意思を示しています。今回のアップデートは製品のイテレーションだけでなく、技術基盤の全面的な刷新でもあります。エントリーレベルの性能では百万単位のコンテキストと複雑なタスク処理をサポートします。
小紅書がオープンソース化したRelax強化学習トレーニングエンジンは、マルチモーダルおよびエージェントシナリオに特化しており、テキスト、画像、音声、動画を統一して処理することが可能で、AI業界の傾向に正確に対応しています。
バイトダンスの火山エンジンが4月2日、多モーダル動画生成モデル「Seedance2.0」の一般API申請を開放。文字・画像・音声・動画の入力に対応し、キャラクター一貫性、監督級の画角制御、物理シミュレーションを実現。....
アリマーブルリンボテクノロジーは大規模なRGB-DディープデータセットLingBot-Depth-Datasetをオープンソース化しました。300万対の高品質なサンプルを含み、そのうち200万対は現実的なシナリオから収集され、100万対はレンダリングによって生成されています。総容量は2.71TBで、6種類の主流なディープカメラをカバーしており、現在のオープンソースコミュニティで最も規模が大きい現実的なシナリオ用RGB-Dデータセットです。これは、身体知能、空間認識および3次元ビジョンなどの分野にさらなるデータサポートを提供するものです。