在本週舉行的SIGGRAPH大會上,Meta首席執行官馬克·扎克伯格首次展示了Segment Anything2(SA2),這是該公司去年推出的突破性圖像分割模型的升級版本。新模型將AI驅動的分割技術擴展到了視頻領域,展示了該技術在過去一年中取得的驚人進展。
SA2延續了其前身的優勢,能夠快速、可靠地識別和勾勒出視頻中的任何物體。與僅適用於靜態圖像的原始模型不同,SA2專門針對視頻處理進行了優化。扎克伯格在與英偉達CEO黃仁勳的對話中強調了這一進步的重要性:"能夠在視頻中實現這一點,而且無需拍攝任何鏡頭就能告訴它你想要什麼,這非常酷。"
儘管視頻處理對計算資源的要求更高,但SA2展現出了顯著的效率提升。該模型能夠在不依賴大型數據中心的情況下運行,反映了AI行業在效率方面的整體進步。
與Meta之前的做法一致,SA2將以開源方式發佈,供研究人員和開發者免費使用。爲支持這一模型的開發,Meta還發布了一個包含50,000個帶註釋視頻的大型數據庫。

扎克伯格在談話中解釋了Meta堅持開源策略的原因:"這不僅僅是一個你可以構建的軟件——你需要一個圍繞它的生態系統。如果我們不開源它,它幾乎就不會那麼好用。"他坦言,這一策略不僅有利於整個生態系統,也有助於提升Meta自身產品的質量。
SA2的發佈再次彰顯了Meta在"開放"AI領域的領導地位。儘管其"開放性"程度仍存在爭議,但像LLaMa、Segment Anything等模型已成爲AI性能的重要參考標準。
隨着SA2的推出,AI視頻分析技術將在科研、環境監測等諸多領域發揮更大作用。這一進展不僅展示了AI技術的快速發展,也爲未來的應用開闢了新的可能性。
