在人工智能領域的最新動態中,Ilya Sutskever 的最新聲明掀起了一場鉅變。他表示,單靠擴大模型規模的時代已經結束,未來的突破將來自於更智能的架構設計。對此,整個 AI 界都感受到了深刻的轉變,因爲過往幾年的發展路徑似乎陷入了數據與參數的 “唯規模論”,然而這一方式正面臨逐漸減弱的收益。
在這一背景下,由中國研究團隊打造的開源原生多模態架構 NEO 應運而生。與之前主流的多模態模型,如 GPT-4V 和 Claude 3.5 等的拼接方式不同,NEO 從根本上重新定義了視覺與語言的關係。傳統的多模態模型通常將視覺編碼器與語言模型分開,二者在數據層面粗暴地拼接在一起,導致信息傳遞不夠順暢。而 NEO 則通過創建一個統一的模型,使視覺與語言從一開始就緊密結合,猶如兩者血脈相連。
NEO 的核心創新在於三大技術突破。首先,它引入了原生圖塊嵌入技術,允許 AI 直接從像素開始構建高保真的視覺表徵,提升了圖像細節的捕捉能力。其次,NEO 開發了原生三維旋轉位置編碼,利用高頻和低頻的不同組合,準確地處理圖像和文本中的位置關係,形成一個智能的時空座標系。最後,原生多頭注意力機制使得視覺與語言的信息可以在同一個框架下進行交流,極大增強了模型對複雜語義的理解能力。
令人驚訝的是,NEO 在僅用傳統模型十分之一的訓練數據的情況下,便在多項評測中追平甚至超越了許多旗艦級對手。這一成果不僅證明了原生架構的有效性,也標誌着 AI 模型發展的新方向。
