SALMONNフレームワーク：大規模言語モデルの汎用聴覚能力拡張

SALMONNは、オーディオテキスト多様な大規模言語モデルフレームワークであり、大規模言語モデルの汎用聴覚領域における理解と処理能力の拡張を目指しています。非音声BEATsオーディオエンコーダ、OpenAI Whisperフレームワークの音声エンコーダ、ウィンドウレベルQ-Formerなどのコンポーネントを統合し、高い時間分解能を実現することで、オーディオテキストのアライメントを可能にします。活性化調整段階を経て、SALMONNはオーディオ字幕、音声翻訳などのタスクで競争力のある性能を示し、汎用聴覚能力を実証しています。

大注目！学術チームがSFTを活用して大手企業の支配を打ち破り、OpenSeeker-v2が検索スマートエージェントランキングで1位に

大規模言語モデルにおける深層探索能力の競争は激化しているが、従来の開発手法は資源集約的な事前学習や微調整、強化学習に依存し、産業界の大手が独占してきた。しかし、最近の学術チームがOpenSeeker-v2を発表し、高品質な手法で資源消費を大幅に削減し、効率的な革新の新たな道を示した。....

DeepSeekのエキスパートが参画、元戎啓行は完全に大モデル技術路線へと転向

北京モーターショーでは、前DeepSeekのマルチモーダル技術の中心研究者であるルン・チョン氏が元戎啓行のシニアサイエンティストとして登場し、同社の自動運転技術の方向性転換を示した。CEOのチュウ・ファン氏は、マルチモーダルの大モデルが2026年初頭に突破を遂げ、大モデルを基盤とした自動運転の道筋には明確な優位性があり、従来の技術を上回ると語った。

小紅書が突然オープンソース化したトレーニングエンジン「Relax」、AI業界に新たな重要なプレイヤーが登場

小紅書がオープンソース化したRelax強化学習トレーニングエンジンは、マルチモーダルおよびエージェントシナリオに特化しており、テキスト、画像、音声、動画を統一して処理することが可能で、AI業界の傾向に正確に対応しています。

SoraとVeoを統合！智象未来が初のマルチモーダルロブスター向けアプリ「HiDreamClaw」を発表

智象未来は多モーダルネイティブアプリ「HiDreamClaw」を発表し、自社の個人向けクリエイティブプラットフォームに統合。海外ユーザーに先行公開し、強力な基盤互換性と自社開発・先進モデルを融合させ、AIクリエイティブエコシステム構築の重要な一歩を踏み出した。....

SALMONNフレームワーク：大規模言語モデルの汎用聴覚能力拡張

関連推奨

大注目！学術チームがSFTを活用して大手企業の支配を打ち破り、OpenSeeker-v2が検索スマートエージェントランキングで1位に

DeepSeekのエキスパートが参画、元戎啓行は完全に大モデル技術路線へと転向

小紅書が突然オープンソース化したトレーニングエンジン「Relax」、AI業界に新たな重要なプレイヤーが登場

バイチューボン・ボンゲイエンジンのSeedance 2.0が一般のAPIユーザー向けに正式に申請を開始

SoraとVeoを統合！智象未来が初のマルチモーダルロブスター向けアプリ「HiDreamClaw」を発表