SALMONNフレームワーク:大規模言語モデルの汎用聴覚能力拡張


2026年の正月に、アリババグループは次世代の大規模モデルである千問Qwen3.5-Plusをオープンソース化しました。その性能はGemini3Proと同等であり、世界で最も強力なオープンソース大規模モデルとなりました。このモデルは下層アーキテクチャの革新を採用しており、パラメータ数は3970億ですが、アクティベーションは170億にとどまり、さらに大きなスケールのQwen3-Maxを上回っています。導入時のメモリ使用量は60%低下し、長文の推論速度は19倍に向上しています。APIコストは百万トークンあたり0.8元で、Gemini3Proの1/18にとどまっています。さらに
快手可灵AIが3.0にバージョンアップし、マルチモーダル入出力でAI動画制作のワークフローを刷新。「誰もが監督になれる」時代を推進。中核的な進歩は、動画生成が「断片生成」から「深層ナラティブ」へ進化し、世界初の複数画像/動画主体参照機能で、クリエイターが動画の主体を正確に固定・制御できるようになった点です。....
OpenAI元チーフサイエンティストAndrej KarpathyがAIを用いて2015年のHacker News議論930件を自動採点。AIによる過去の公開発言分析可能性を示し、将来のネット議論の質について考察を促す。....
Starcloud社は、NVIDIA H100 GPUを搭載した衛星を用いて、宇宙空間でnano-GPTモデルのトレーニングに成功し、Gemmaモデルの推論を完了しました。これは宇宙データセンターの発展における重要な進展を示しています。
AWSはre:Invent2025で自社開発の多モーダル大規模モデル「Nova2」シリーズ4機種を発表。テキスト、画像、動画、音声に対応し、初めてウェブ検索とコード実行機能を内蔵。コストパフォーマンスで業界をリードすると主張。Nova2 Liteは高コスパ推論に特化し、Claude Haiku4.5やGPT-5Miniを性能で上回りつつコストは約50%。Nova2 Proは複雑なエージェントタスク向け。....