阿里發佈多模態推理模型QVQ-72B！視覺、語言能力雙提升，複雜問題迎刃而解

阿里巴巴近日推出了一款名爲QVQ-72B的全新多模態推理模型，該模型基於Qwen2-VL-72B構建，融合了強大的語言和視覺能力，能夠處理更爲複雜的推理和分析任務，標誌着阿里巴巴在多模態AI領域取得了新的突破。

QVQ-72B在視覺推理、數學和科學問題上表現出了顯著的提升，尤其是在多步推理任務中。這意味着該模型不僅能夠理解文字信息，還能理解圖像信息，並通過多步推理來解決複雜問題，這是傳統AI模型難以企及的。

該模型的一大亮點是其在物理問題中結合文字和視覺信息推導因果關係的能力。例如，它可以根據物理場景的圖片和相關的文字描述，推理出事件發生的因果關係，展現出更深層次的理解能力。

在數學推理任務（如代數、微積分）中，QVQ-72B通過分步推理顯著減少了錯誤率。這表明該模型不僅能夠進行簡單的計算，還能進行復雜的數學推理，並提供清晰的解題步驟，爲解決複雜的數學問題提供了新的工具。

此外，QVQ-72B在技術報告、複雜圖表分析中提取關鍵信息的準確率和效率也較高。它能夠快速準確地從複雜的文檔和圖表中提取出關鍵信息，爲科研人員、分析師等專業人士提供了強大的輔助工具。

在圖像識別方面，QVQ-72B能夠精準識別圖片中的細節，例如物體位置、顏色、空間關係，以及複雜情景。這意味着該模型可以應用於更廣泛的場景，如智能監控、自動駕駛等。

總而言之，阿里巴巴推出的QVQ-72B多模態推理模型，憑藉其強大的視覺、語言和推理能力，爲解決複雜問題提供了新的思路和工具。它的出現，無疑將推動人工智能在各個領域的應用，爲各行各業的智能化升級注入新的動力。

在線試玩:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

詳細介紹:https://qwenlm.github.io/blog/qvq-72b-preview/

商湯科技開源日日新 SenseNova U1，實現多模態原生統一架構

商湯科技發佈並開源日日新SenseNova U1系列模型，基於自研NEO-unify架構，實現多模態理解、推理與生成的深度統一，標誌着從“集成式”向“原生統一”的跨越。該架構摒棄拼接式設計，去除視覺編碼器和變分自編碼器，提升了模型效率與性能。

6 人團隊 48 小時搞定電影級長視頻！華科大自研AI平臺“愛烏”破解行業穿幫痛點