阿里巴巴近日推出了一款名爲QVQ-72B的全新多模態推理模型,該模型基於Qwen2-VL-72B構建,融合了強大的語言和視覺能力,能夠處理更爲複雜的推理和分析任務,標誌着阿里巴巴在多模態AI領域取得了新的突破。



阿里巴巴近日推出了一款名爲QVQ-72B的全新多模態推理模型,該模型基於Qwen2-VL-72B構建,融合了強大的語言和視覺能力,能夠處理更爲複雜的推理和分析任務,標誌着阿里巴巴在多模態AI領域取得了新的突破。


聲智科技推出全球首款多模態AI時尚耳機,融合視覺與聲學交互,突破傳統耳機侷限。該產品定位爲“隨身感知工具”,通過聲視融合技術實現“看得見、聽得清、回得準”,即將在Kickstarter全球首發。
蘋果推出多模態AI模型UniGen1.5,整合圖像理解、生成與編輯三大功能於統一框架,顯著提升效率。該模型利用圖像理解能力優化生成效果,實現技術突破。
美團引入前字節跳動AI專家潘欣,負責多模態AI創新,以強化AI基礎設施,應對激烈市場競爭。潘欣擁有谷歌大腦及百度等頂尖企業經驗,將助力美團提升技術實力。
多模態AI公司ElevenLabs推出集成式內容創作平臺,融合圖像生成、視頻製作、聲音合成、音樂創作和音效設計功能,實現從劇本到成品視頻的一站式閉環生產,幫助創作者和營銷人員告別多平臺切換,高效完成商業視頻製作。
百度世界大會發布文心大模型5.0,李彥宏將其定義爲“原生全模態模型”,實現文本、圖像、聲音深度融合協同,突破傳統多模態拼接方式,推動國產AI進入新紀元。