SALMONNフレームワーク:大規模言語モデルの汎用聴覚能力拡張


2026年6月23日、火山引擎が動画生成モデル「Seedance2.5」を発表、7月提供開始。30秒の単一ネイティブ動画生成、50種の全モーダル素材の統合生成、一貫性を保つ部分編集の三大ブレークスルーを実現。譚待社長は動画生成が世界モデルへの鍵と述べた。....
Build2026会議でマイクロソフトは初の高精度推論モデルであるMAI-Thinking-1を発表し、350億パラメータを備え、ソフトウェアエンジニアリングの基準テストでリードを獲得しています。このモデルはクリーンなデータからゼロから訓練され、外部データソースを使用していません。これは、マイクロソフトが自社AIおよびエンドツーエンドのマトリクス構築において重要な一歩を踏み出したことを示しています。
国内のAIGCマルチモーダルクリエーション分野において新たな進展があり、网易有道傘下のオープンソースAI製品ロブスターアイ(ロブスター)がアップグレードされ、画像および動画生成機能を正式にリリースしました。今回のアップグレードではマトリクス式の統合戦略を採用し、4つの主要なマルチモーダル大規模モデル:シードリーム、シーダンス、ハッピーハース、ミニマックス・ハイルーを統合し、クリエイティブ効率と多様性を向上させました。
网易有道が「子曰」大規模言語モデル4.0を発表。テキスト、画像、音声を高度に融合した全モーダル時代に突入。コア技術を完全オープンソース化し、AI導入コストとハードルを低減。全モーダル融合や深層再構築などでAIエコシステムの発展を促進。....
大規模言語モデルにおける深層探索能力の競争は激化しているが、従来の開発手法は資源集約的な事前学習や微調整、強化学習に依存し、産業界の大手が独占してきた。しかし、最近の学術チームがOpenSeeker-v2を発表し、高品質な手法で資源消費を大幅に削減し、効率的な革新の新たな道を示した。....