Meta人工智能研究團隊(FAIR)近日公開發布五項前沿研究成果,標誌着AI感知領域的重大突破。這些開源項目從視覺編碼器到3D空間理解,再到協作式推理框架,共同構建了通向高級機器智能(AMI)的關鍵路徑,爲未來AI如何理解和感知世界帶來全新可能。

QQ20250509-110259.jpg

"機器之眼"再升級:Meta感知編碼器引領視覺理解新標準

Meta感知編碼器(Perception Encoder)作爲大規模視覺編碼器,在圖像和視頻處理領域顯示出卓越能力,成爲AI系統的"眼睛"。該編碼器能夠連接視覺與語言,同時在各種複雜甚至對抗性環境下保持高穩定性。它不僅能識別廣泛的視覺概念,還能捕捉細微差別,如辨別海底隱藏的黃貂魚,識別圖像背景中的小金翅雀,或在夜視野生動物攝像機中捕捉飛奔的刺豚。

在零樣本分類和檢索任務上,感知編碼器的表現超越了所有現有開源和專有模型。更令人矚目的是,這些強大的感知能力成功遷移到下游語言任務中。當與大型語言模型對齊後,該編碼器在圖像和視頻問答、字幕生成、文檔理解等傳統上對語言模型具有挑戰性的任務上表現出色,如判斷物體的前後位置或相機繞物體的運動方向。

感知語言模型:全面提升視覺理解能力

Meta同時發佈了感知語言模型(PLM),這是一個開放、可復現的視覺-語言模型,專爲解決複雜視覺識別任務而設計。研究團隊使用大規模合成數據和開放視覺-語言理解數據集進行訓練,未依賴外部模型進行蒸餾。

針對現有視頻理解數據的不足,團隊收集了250萬個人工標註的細粒度視頻問答和時空標題樣本,形成目前同類數據集中規模最大的數據資源。PLM基於這一龐大數據集訓練,結合人工標註和合成數據,創建了一個健壯、準確且完全可復現的模型,提供10億、30億和80億參數的不同版本,特別適合透明的學術研究。

此外,Meta還推出了新基準PLM-VideoBench,聚焦現有基準所忽視的任務:細粒度活動理解和時空定位推理。這一開放大規模數據集、具挑戰性的基準和強大模型的組合,將助力開源社區構建更強大的計算機視覺系統。

Meta Locate3D:開啓開放詞彙對象定位新紀元

想象一下,當你對機器人說"給我拿桌上的紅杯子",機器人能精準完成任務。Meta Locate3D正是爲實現這一目標而生的端到端模型,能夠準確定位來自開放詞彙查詢的物體。該模型直接處理來自RGB-D傳感器的3D點雲數據,當接收到如"電視櫃旁的花瓶"等文本提示時,會考慮空間關係和上下文,識別特定物體實例並精確定位。

QQ20250509-110224.jpg

Meta Locate3D由三個關鍵組件構成:

  • 預處理步驟,將2D基礎特徵提升爲3D特徵化點雲
  • 3D-JEPA編碼器,預訓練編碼器接收特徵化點雲並預測3D世界的上下文化平滑表示
  • Locate3D解碼器,處理3D-JEPA表示和語言查詢,生成指定物體的邊界框和掩碼

研究團隊還發布了一個基於參照表達式的物體定位新數據集,包含跨ARKitScenes、ScanNet和ScanNet++三個廣泛使用數據集的13萬個語言標註,覆蓋1,346個場景,有效將現有數據標註量翻倍。Meta Locate3D通過使機器人準確理解周圍環境並將理解基於自然語言,支持更復雜和高效的機器人系統開發,包括Meta PARTNR項目,標誌着智能自主機器追求道路上的重要一步。

動態字節潛在變換器:重新定義效率與魯棒性標準

應廣泛需求,Meta發佈了80億參數的動態字節潛在變換器(Dynamic Byte Latent Transformer)模型權重。這項研究是字節級語言模型架構的重大進步,首次實現了與傳統基於分詞的語言模型相匹配的大規模性能,同時提高了推理效率和顯著改善了魯棒性。

動態字節潛在變換器架構在各種任務中表現超越基於分詞器的模型,平均魯棒性優勢達7個百分點(在擾動HellaSwag上),在CUTE令牌理解基準的任務上優勢高達55個百分點。這凸顯了該技術重新定義語言模型效率和可靠性標準的潛力,爲傳統分詞方法提供了有力替代方案。

協作推理器:通過合成對話實現自我提升的社交智能體

人類合作往往能取得更強大的成果。Meta的協作推理器(Collaborative Reasoner)框架旨在評估和提高大型語言模型的協作推理技能,這是構建協作社交智能體的重要一步。想象一個能幫助理解困難作業或準備工作面試的智能體,這類協作除了解決問題外,還需要有效溝通、提供反饋、同理心和心智理論等社交技能。

協作推理器包含一套目標導向任務,需要兩個智能體通過多輪對話完成多步推理。這些任務和指標要求智能體在解決方案上產生分歧,說服夥伴接受正確解決方案,並最終作爲團隊就最佳解決方案達成一致。

評估顯示,當前模型無法一致地利用協作來實現更好的任務表現。爲改善語言模型的協作推理能力,Meta提出了使用合成交互數據的自我提升方法,即語言模型智能體與自身協作。爲了大規模生成此類數據,團隊開發了一個名爲Matrix的多功能高性能模型服務引擎。在數學(MATH)、科學(MMLU-Pro、GPQA)和社會推理(ExploreToM、HiToM)任務上,該方法的性能比同等單一智能體的思維鏈表現提高了高達29.4%。

開放創新,加速AI生態發展

通過廣泛開放這五項研究成果,Meta FAIR團隊旨在爲研究社區提供便捷訪問,促進AI開放生態系統發展,加速進步和發現。這些模型、基準和數據集專注於感知能力,幫助機器以人類般的智能和速度獲取、處理和解釋感官信息,爲實現高級機器智能鋪平道路。

隨着這些技術的不斷成熟和應用,我們可以期待AI系統將具備更強大的視覺理解能力、更精確的3D空間感知以及更自然的協作互動能力,爲人機協作和智能應用開闢嶄新未來。

官方介紹:

https://ai.meta.com/blog/meta-fair-updates-perception-localization-reasoning/