阿里巴巴近日推出了一款名爲QVQ-72B的全新多模態推理模型,該模型基於Qwen2-VL-72B構建,融合了強大的語言和視覺能力,能夠處理更爲複雜的推理和分析任務,標誌着阿里巴巴在多模態AI領域取得了新的突破。



阿里巴巴近日推出了一款名爲QVQ-72B的全新多模態推理模型,該模型基於Qwen2-VL-72B構建,融合了強大的語言和視覺能力,能夠處理更爲複雜的推理和分析任務,標誌着阿里巴巴在多模態AI領域取得了新的突破。


谷歌推出StreetReaderAI原型系統,幫助盲人和低視力用戶通過自然語言交互自主探索谷歌街景。該系統融合計算機視覺、地理信息系統和大語言模型,實現多模態AI驅動的實時對話式街景體驗,突破傳統語音播報侷限,提升無障礙城市探索自由度。
智源研究院發佈Emu3.5多模態世界模型,首次引入自迴歸式“下一狀態預測”技術,推動AI從感知理解邁向智能操作。該模型能在複雜環境中規劃執行跨模態任務,實現多模態AI質的飛躍。
百度將在11月世界2025大會上正式發佈小度AI眼鏡,計劃年內開售。該產品融合多模態AI與可穿戴技術,是百度智能硬件生態的重要佈局。其核心功能包括第一視角拍攝,可實時記錄用戶所見畫面,適用於生活記錄和內容創作。
馬斯克旗下xAI發佈視頻生成模型Imagine v0.9,在多模態AI創作領域實現突破。相比v0.1版本,新模型在畫質、動作自然度和音頻生成方面顯著提升:視覺質量接近電影級,動作流暢無斷層,並新增原生音頻生成功能。
近日,多模態 AI 領域的先鋒企業生數科技宣佈成功完成數億元人民幣的 A 輪融資。這輪融資由博華資本領投,老股東百度戰投、北京市人工智能產業投資基金等多個投資方繼續跟進,顯示出市場對生數科技的高度認可。公司計劃利用這筆資金進一步推動模型研發和技術創新,探索多模態大模型的潛力,進而加速產品拓展和用戶服務。多模態技術,尤其是視頻生成領域,正處於快速發展的階段。生數科技的融資負責人表示,預計在未來三年內,多模態生成將改變全球數字內容的生產方式,逐