正文

SALMONN框架：拓展大型語言模型通用聽覺能力

發布於AI新閒資訊

時間 :Nov 29, 2023

閱讀 :1分鐘

SALMONN框架通過整合不同聽覺編碼器和激活調整階段，取得了競爭性的通用聽覺性能。其多模態架構爲大型語言模型提供了直接理解和處理通用音頻輸入的能力，展示了在多種任務中的競爭性性能。

火山引擎發佈豆包Seedance2.5視頻模型，方舟大模型服務用戶超110萬

2026年6月23日，火山引擎在夏季FORCE原動力大會上發佈豆包視頻生成模型Seedance2.5，計劃7月上線。該模型實現30秒單段原生視頻直出、50個全模態素材聯合生成及保持畫面一致性的局部編輯三大突破。總裁譚待表示，視頻生成是通往世界模型的關鍵。

在Build2026大會上，微軟發佈首款高級推理模型MAI-Thinking-1，擁有350億參數，在軟件工程基準測試中達領先水平。該模型基於乾淨數據從零訓練，未使用外部來源數據，標誌着微軟在自研AI及全場景矩陣構建上邁出關鍵一步。

國內AIGC多模態創作領域迎來新進展，網易有道旗下開源AI產品LobsterAI（龍蝦）升級，正式上線圖片和視頻生成能力。此次升級採用矩陣式整合策略，接入四大主流多模態大模型：Seedream、Seedance、HappyHorse和MiniMax-Hailuo，提升創作效率與多樣性。

深度搜索能力是當前大模型領域的核心競爭點，但傳統開發模式依賴資源密集的預訓練、微調和強化學習，長期被工業巨頭壟斷。近日，學術界團隊推出OpenSeeker-v2，打破常規，通過高質量方法顯著降低資源消耗，展示了高效創新的新路徑。

北京車展上，前DeepSeek多模態技術核心研究員阮翀以元戎啓行首席科學家身份亮相，標誌該公司自動駕駛技術轉向。CEO周光稱，多模態大模型在2026年初取得突破，以大模型爲基座的自動駕駛路線起點上優勢顯著，超越上一代技術。

智啟未來，您的人工智能解決方案智庫