GPT-4o和Sonnet-3.5在視力測試中敗北，VLM們竟是“盲人”？

視覺語言模型（VLMs）大家應該都聽說過，這些AI界的小能手不僅能讀懂文字，還能“看”懂圖片。但事實並非如此，今天，我們來扒一扒它們的“底褲”，看看它們是不是真的像我們人類一樣能“看”懂圖像。

首先，得給大家科普一下，VLMs是啥玩意兒。簡單來說，它們就是一些大型的語言模型，比如GPT-4o和Gemini-1.5Pro，它們在圖像和文本處理上表現得風生水起，甚至在很多視覺理解測試上都拿到了高分。但別被這些高分唬住，我們今天要看看它們是不是真的那麼牛。

研究人員們設計了一套叫做BlindTest的測試，裏面有7個任務，對人類來說簡直簡單到不行。比如，判斷兩個圓是否重疊，兩條線是否相交，或者數數奧運標誌裏有幾個圓圈。這些任務聽起來是不是覺得幼兒園小朋友都能輕鬆搞定?但告訴你，這些VLMs的表現可沒那麼神。

結果讓人大跌眼鏡，這些所謂的先進模型在BlindTest上的平均準確率只有56.20%，最好的Sonnet-3.5也就73.77%的準確率。這就好比一個號稱能考清華北大的學霸，結果連小學數學題都做不對。

爲啥會這樣呢?研究人員分析，可能是因爲VLMs在處理圖像時，就像是個近視眼，看不清楚細節。它們雖然能大致看出圖像的總體趨勢，但一旦涉及到精確的空間信息，比如兩個圖形是否相交，或者重疊，它們就懵了。

舉個例子，研究人員讓VLMs判斷兩個圓是否重疊，結果發現，即使兩個圓大得跟西瓜似的，這些模型還是不能100%準確地回答出來。還有，當讓它們數數奧運標誌裏的圓圈數，它們的表現也是一言難盡。

更有意思的是，研究人員還發現，這些VLMs在數數時，似乎對數字5有一種特別的偏好。比如，當奧運標誌裏的圓圈數超過5個時，它們就傾向於回答“5”，這可能是因爲奧運標誌裏有5個圓圈，它們對這個數字特別熟悉。

好了，說了這麼多，小夥伴們是不是對這些看似高大上的VLMs有了新的認識?其實，它們在視覺理解上還有很多侷限，遠沒有達到我們人類的水平。所以，下次再聽到有人說AI能完全替代人類，你就可以呵呵一笑了。

論文地址:https://arxiv.org/pdf/2407.06581

項目頁:https://vlmsareblind.github.io/

美國參議院新AI相關法案：爲防AI抄襲侵權禁止非法移除數字水印

近年來，隨着人工智能技術的迅猛發展，內容創作者紛紛擔憂其作品可能遭到非法盜用，這一問題在全球範圍內引起了廣泛關注。爲了保護創作權益，美國參議院的兩黨議員團體提出了一項名爲“內容來源保護和深度僞造媒體完整性法案”(COPIED法案)，旨在簡化AI生成內容的驗證和檢測過程，以防止未經許可的使用。根據該法案，美國國家標準技術研究院（NIST）將負責制定相關的標準和指南，包括使用水印技術來證明內容的來源，並對AI工具提出要求，需允許用戶附加內容來源信息且禁止移除這些信息，同時避免對創意和新聞內容進行訓練。違反這一法案的公司將遭受內容所有者，如廣播公司、藝術家和報紙的訴訟。州檢察長和聯邦貿易委員會也有權執行聯邦法律。多行業組織，包括媒體和藝術家發聲支持了這一法案。法案首要聚焦保護基本權利，確保正確的供應鏈管理，旨在爲人工智能的全面發展建立一個倫理、公開且負責任的框架。

德國AI國防公司Helsing獲得4.5億歐元融資，加速產品研發

德國AI國防公司Helsing在C輪融資中獲得4.5億歐元，主要用於產品開發和研究，強化北約東部邊界防禦。General Catalyst領銜投資，其他投資者包括知名資本及Saab、Lightspeed等。資金將助力提速研發與戰略部署，針對歐洲安全形勢的關鍵需求。Helsing自2022年起與烏克蘭合作，通過技術合同助力國防升級與系統建設。該公司被視爲關鍵的德國AI企業，其發展獲得聯邦經濟資助許可。項目目標突出人工智能在軍事領域（如物流、偵察、網絡空間）的應用，尤其是在烏克蘭戰場上人工智助航偵察與通訊的重要作用。

騰訊AI實驗室的項目vta-ldm：輸入視頻生成對齊音頻

研究團隊騰訊人工智能實驗室推出的“隱含對齊視頻到音頻生成”模型VTA-LDM憑藉其創新的隱含對齊技術，有效實現了視頻與生成音頻的語義和時間一致性，大幅提升音頻生成質量，拓寬了視頻生成技術應用場景。實驗分析表明，結合視覺編碼器、輔助嵌入與數據增強的模型設計，顯著提高了生成音頻的準確性和一致性。團隊通過建立基礎模型，開展消融實驗，評估不同部分對生成效果的影響，證實了模型在質量與同步性上的卓越性能，達到技術前沿。通過簡單用戶操作：將視頻片段放入數據目錄並運行腳本，即可生成相應音頻，隨後工具幫助實現音頻與原始視頻合併，進一步提升應用便利性。VTA-LDM模型爲用戶提供多樣化模型選擇，涵蓋不同需求，顯著推動視頻到音頻生成領域技術發展與應用創新。

Anthropic宣佈Claude 3 Haiku支持微調

Anthropic現在在Amazon Bedrock中推出了其最新模型Claude3Haiku，開啓了客戶微調模型的途徑。這一創新功能讓使用者根據自身業務需求，個性化定製模型的知識與能力，以達到在特定任務上的最佳效果。微調技術通過精細調校模型，針對性地提升其在分類、與自定義API互動及解讀行業數據等特定領域的性能。使用Amazon Bedrock控制檯或API，用戶可對Claude3Haiku進行測試和優化，直至滿足所需性能目標並最終部署。微調Claude3Haiku不僅可提高在具體任務上的專業表現，顯著優於通用模型，而且還降低生產部署成本，加快結果返回速度，同時保證一致且符合品牌格式的輸出，滿足法律法規與內部協議需求。用戶無需深厚技術背景，即可實現高效創新。據韓電信公司SK Telecom的報道，通過微調Claude模型，顯著提升了客戶體驗和關鍵指標。全球內容與技術公司Thomson Reuters也取得了亮眼效果，進一步優化在法律、稅務等領域的一致用戶體驗。當前，微調功能已開始在美國西部（俄勒岡）AWS區域進行預覽，支持文本微調，最大上下文長度可達32K個tokens。未來，將引入視覺能力的全面部署。

GPT-4o和Sonnet-3.5在視力測試中敗北，VLM們竟是“盲人”？

相關推薦

AI和生物科學跨界聯手了！OpenAI與美國國家實驗室達成合作

美國參議院新AI相關法案：爲防AI抄襲侵權禁止非法移除數字水印

德國AI國防公司Helsing獲得4.5億歐元融資，加速產品研發

騰訊AI實驗室的項目vta-ldm：輸入視頻生成對齊音頻

Anthropic宣佈Claude 3 Haiku支持微調

GPT-4o和Sonnet-3.5在視力測試中敗北，VLM們竟是“盲人”？

相關推薦

AI和生物科學跨界聯手了！OpenAI與美國國家實驗室達成合作

美國參議院新AI相關法案：爲防AI抄襲侵權 禁止非法移除數字水印

​德國AI國防公司Helsing獲得4.5億歐元融資，加速產品研發

騰訊AI實驗室的項目vta-ldm：輸入視頻生成對齊音頻

Anthropic宣佈Claude 3 Haiku支持微調

美國參議院新AI相關法案：爲防AI抄襲侵權禁止非法移除數字水印

德國AI國防公司Helsing獲得4.5億歐元融資，加速產品研發