清華大學、騰訊聯合推全開源多模態架構Oryx 支持超長視頻輸入

AIbase基地

發布於AI新聞資訊 · 1 分鐘閱讀 · Jul 21, 2025

在人工智能快速發展的今天，一個名爲ORYX的多模態大型語言模型正在悄然改變我們對AI理解視覺世界能力的認知。這個由清華大學、騰訊和南洋理工大學研究人員聯合開發的AI系統，堪稱視覺處理領域的"變形金剛"。

ORYX，全稱Oryx Multi-Modal Large Language Models，是一個專門設計用於處理圖像、視頻和3D場景時空理解的AI模型。它的核心優勢在於能夠像人類一樣，不僅理解視覺內容，還能洞察內容之間的關聯和背後的故事。

這個AI系統的一大亮點是其處理任意分辨率視覺輸入的能力。無論是模糊的老照片還是高清視頻，ORYX都能輕鬆應對。這得益於其預訓練模型OryxViT，它能將不同分辨率的圖像轉換爲AI可理解的統一格式。

更令人驚歎的是ORYX的動態壓縮能力。面對長時間的視頻輸入，它能夠智能地壓縮信息，保留關鍵內容而不失真。這就像是將一本厚重的書精煉成一張內容豐富的便籤卡，既保留了核心信息，又大大提高了處理效率。

ORYX的工作原理主要依賴於兩個核心組件:視覺編碼器OryxViT和動態壓縮模塊。前者負責處理多樣化的視覺輸入，後者則確保長時間視頻等大容量數據能夠被高效處理。

在實際應用中，ORYX展現出了驚人的潛力。它不僅能深入理解視頻內容，包括對象、情節和動作，還能準確把握3D空間中物體的位置和關係。這種全方位的視覺理解能力，爲未來的人機交互、智能監控、自動駕駛等領域帶來了無限可能。

值得一提的是，ORYX在多個視覺-語言基準測試中表現卓越，尤其在圖像、視頻和多視圖3D數據的空間和時間理解方面，展現出了領先優勢。

ORYX的創新之處不僅在於其強大的處理能力，更在於它爲AI視覺理解開闢了新的範式。它能夠以原生分辨率處理視覺輸入，同時通過動態壓縮技術高效處理長視頻，這種靈活性和效率是其他AI模型難以企及的。

隨着技術的不斷進步，ORYX有望在未來的AI領域扮演更加重要的角色。它不僅將幫助機器更好地理解我們的視覺世界，還可能爲人類認知過程的模擬提供新的思路。

論文地址:https://arxiv.org/pdf/2409.12961

OpenAI CFO 出面安撫投資者:高管離職不影響公司前景

近日，OpenAI 面臨高管離職的波，三位級管理層的離去引發了的廣泛關注。爲了消除投資的疑慮，公司席財務官莎拉・弗賴（Sarah Friar）通過一封電子郵件向外界傳達了積極的信息。她在郵件中重申，OpenAI 將繼續致力於開發能夠惠及投資者的人工智能技術，顯示出公司對未來的信心。弗賴爾透露，OpenAI 目前正在進行的65億美元融資輪已經超額認購，預計將於下週完成。這一融資進展顯然表明儘管高管變動，投資者對 OpenAI 的信心依然強勁。此外，OpenAI 還計劃將其公司結構改爲營利性，以便更

德國法院允許非營利組織LAION抓取受版權保護的圖像用於AI訓練

在人工智能快速發展的今天，一場發生在德國漢堡的法庭裁決爲AI訓練數據的收集和使用帶來了新的討論。這起案件不僅引發了公衆對AI與版權之間關係的深思，也爲未來AI發展的法律框架提供了重要參考。事件的起因是非營利組織LAION在未經授權的情況下，從一個圖片代理網站下載了一張受版權保護的圖像。LAION將這張圖像與相關描述配對，並將其納入了名爲"LAION-5B"的免費數據集中。這個龐大的數據集包含了高達58.5億對圖像和文字組合，被廣泛用於AI訓練。圖源備註：圖片由AI生成，圖片授

谷歌 DeepMind 發佈 AlphaChip：AI 加速芯片設計，效率提升驚人！

近日，谷歌 DeepMind 公佈了其最新的 AI 系統 ——AlphaChip。這一系統致力於加速和優化計算機芯片的開發，AlphaChip 所設計的芯片佈局已經在谷歌的 AI 加速器中得到應用。AlphaChip 的工作原理類似於我們之前所聽說的 AlphaGo 和 AlphaZero，採用強化學習技術，迅速生成經過優化的芯片佈局。根據谷歌 DeepMind 的介紹，AlphaChip 已經在過去三代的張量處理單元（TPU）AI 加速器中被使用。其中，在最新的第六代 TPU——Trillium 中，AlphaChip 實現了25個模塊的佈局設計，相比於人類專家，電線長度減少了6.2%。

65億美元融資蘋果不跟了！OpenAI大規模融資遇險

近期，OpenAI 正處於關鍵的轉型期，計劃從非營利實驗室轉型爲盈利公司，並籌備新一輪鉅額融資。然而，公司內部卻風波不斷，首席技術官、首席研究官等多位高管相繼離職，引發外界對 OpenAI 未來發展方向的擔憂。據悉，蘋果公司意外放棄參與 OpenAI 最新一輪65億美元的融資，導致融資計劃遇冷。儘管 OpenAI 預計今年收入可達3億美元，同比增長高達1700%，但公司預計今年將虧損50億美元，盈利前景堪憂。一些員工對 OpenAI 現狀表示擔憂，認爲公司在追求快速增長的同時，產品安全測試環節

一款免費開源電子書轉有聲書AI工具：支持語音克隆

Drew Thomasson 最近發佈了一個創新的開源項目—— ebook2audiobookXTTS，該工具利用 Calibre 和 Coqui TTS，將電子書轉換爲高質量的有聲讀物，支持多種語言，並提供可選的語音克隆功能。該項目爲了使用戶能夠輕鬆創建帶有章節和元數據的有聲書，讓閱讀體驗更加豐富。該工具的主要特點包括:高效轉換 :藉助 Calibre，用戶可以將多種電子書格式（如 .epub 和 .mobi）轉換爲文本，並實現自動章節檢測。多語言支持:情況下默認支持英語，但還包括西班牙語、法語、德語等多種語言，滿足全球用戶需求。任

Hugging Face新里程碑：免費AI模型數量突破一百萬，用戶每10秒就會創建新AI 存儲庫

近日，人工智能平臺 Hugging Face 宣佈，其公開可用的 AI 模型數量已超過一百萬個。這一里程碑不僅標誌着 Hugging Face 在 AI 領域的快速發展，也反映出專業化 AI 解決方案越來越受到重視。圖源備註：圖片由AI生成，圖片授權服務商MidjourneyHugging Face 的聯合創始人克萊門特・德朗格（Clément Delangue）表示，Hugging Face 的100萬個公共模型包括 Llama、Gemma、Phi、Flux、Mistral 和 Stable Diffusion 等知名示例，以及“999，984個其他模型。這一多樣性意味着爲特定應用、領域、語言和硬件優化的模型，往往能夠超