咱們天天聊 AI 多牛逼,能寫詩、能畫畫、還能跟你嘮嗑到天亮。但你有沒有想過,當 AI 看視頻的時候,它真的“看懂”了嗎?
你可能會說:“當然了,都能識別貓貓狗狗、人山人海了!”
打住!識別物體是一回事,但理解視頻的 “靈魂” —— 也就是 攝像機是怎麼動的 —— 那又是另一回事了!想象一下,你看希區柯克的電影,那經典的“滑動變焦”(dolly zoom)帶來的眩暈感;或者《侏羅紀公園》裏,鏡頭緩緩擡起(tilt up)又平移(pan right),第一次看到恐龍時的那種敬畏感;甚至是你看愛豆 vlog 時,那跟着愛豆跑的“跟蹤鏡頭”(tracking shot)…… 這些運鏡,都在講故事,都在傳遞情感!
可對 AI 來說,這些微妙的動作語言,之前很大程度上就是個“謎”。它可能知道畫面裏有個人在跑,但很難說清攝像機是在跟着跑(tracking),還是在原地轉圈(panning),或者是像喝醉了一樣在那兒瞎晃(unsteady)。這可不行!無論是要搞懂視頻內容、做3D 重建(SfM/SLAM),還是要生成更逼真的視頻,理解鏡頭運動都是 AI 必須掌握的“基本功”!
別急,一羣來自 CMU、UMass、USC 等頂尖機構的大佬們出手了!他們搞出了一個名叫 CameraBench 的大項目,號稱要給 AI 好好補補這堂“電影攝影課”。今天,咱們就用大白話,把這篇剛出爐熱乎乎的論文給你扒個明明白白!
爲啥 AI 看鏡頭運動會“懵圈”?
你可能會覺得奇怪,人不都天生會看嗎?爲啥 AI 就不行?這裏面坑可不少:
參照物搞不清,說啥都是白搭: 比如一個無人機俯拍,鏡頭往前飛,有人會說“往前”,但因爲是朝向地面,也有人會說“往下”。到底參照相機自身、地面,還是畫面裏的物體?說不清楚,AI 就暈了。論文裏提到,人描述鏡頭運動,往往是結合場景或物體的,比如“相機跟着主體跑”,哪怕相機其實是在倒着飛!
術語滿天飛,還經常用錯: 你是不是也分不清“推拉鏡頭”(Dolly In/Out)和“變焦”(Zoom In/Out)?前者是相機真的物理移動了(改變了相機外參),後者只是動了動鏡頭內部的鏡片(改變了相機內參)。效果類似,但原理和透視感完全不同!業餘玩家經常搞混,AI 模型要是學歪了,那可就麻煩了。
真實世界太複雜,花樣百出: 網上的視頻哪有那麼多規規矩矩的?可能先往前飛,飛一半突然掉頭;可能鏡頭抖得像得了帕金森;可能好幾種運鏡方式同時進行… 想用簡單的“左移”、“右移”標籤來概括?太天真了!
面對這些難題,傳統方法有點力不從心:
老派幾何學霸 (SfM/SLAM): 這類方法擅長從畫面像素變化推算相機軌跡,搞3D 重建很在行。但在動態場景(比如畫面里人和車都在動)就容易“分不清敵我”,搞不清是相機在動還是物體在動。而且,它們只關心冷冰冰的座標,完全不懂運鏡的“意圖”和“情緒”。
新興語言達人 (VLM - 視頻語言模型): 像 GPT-4o、Gemini 這些模型,理解語義能力超強,似乎能“看懂”視頻。但它們對精確的幾何運動(比如到底是平移了1米還是旋轉了5度)又不太敏感,理解基本靠“猜”和大規模訓練數據裏的“感覺”。
所以,大佬們覺得,是時候系統性地解決這個問題了!
CameraBench 登場!打造 AI 的“鏡頭語言詞典”
CameraBench 不是一個簡單的數據庫,它是一整套解決方案,核心是兩樣東西:一個超詳細的“鏡頭運動分類法”(Taxonomy) 和 一個高質量的“標註數據集”。
1. 這個分類法(Taxonomy)有多牛?
這可不是隨便拍腦袋想的,是視覺研究員和 專業電影攝影師 坐在一起,花了幾個月,反覆打磨出來的!它考慮得非常周全:
三大參照系: 明確區分是相對於 物體 (Object)、地面 (Ground) 還是 相機自身 (Camera) 的運動。解決前面說的參照物混亂問題。
精準術語: 使用電影行業的標準術語,杜絕歧義。
平移 (Translation): Dolly(前後)、Pedestal(上下)、Truck(左右)。相機真的在動!
旋轉 (Rotation): Pan(左右搖擺)、Tilt(上下點頭)、Roll(側向翻滾)。相機原地轉!
變焦 (Zooming): Zoom In/Out。鏡頭內部變化,改變焦距!
還有更炫的: 環繞 (Arcing/Orbiting)、各種跟蹤鏡頭 (Tracking shots - 跟屁蟲式、領跑式、側跟式、空中跟拍…)、穩定性 (Steadiness - 靜止、穩如老狗、有點抖、抖成篩子)。
目標導向: 還考慮了以物體爲中心的運動,比如鏡頭是不是爲了讓主體在畫面裏顯得更大或更小。
這個分類法就像一本權威詞典,給混亂的鏡頭運動描述立下了規矩!
2. 數據集標註有多“處女座”?
有了好詞典,還得有高質量的例句。他們從網上搜羅了 約3000個 五花八門的視頻片段:電影、廣告、遊戲、Vlog、動畫、體育賽事… 啥都有!然後,進行了一套極其嚴格的標註流程:
人工分鏡: 先把視頻手動切成一個個獨立的、運鏡連續的鏡頭。
“先打標籤,再描述” (Label-then-caption):
簡單、清晰的運動: 標註員必須嚴格按照分類法,給所有相關的運動都打上標籤。
複雜、模糊的運動: 如果運動很複雜(比如先左搖再右搖)或者看不清(比如背景太暗),標註員只選擇自己 非常有把握 的標籤,其他留空(標爲“不確定”)。然後,必須用自然語言寫一段描述,解釋清楚這個複雜的運動過程,或者說明爲啥看不清。
還要解釋“爲啥這麼動”: 鼓勵標註員描述運鏡的意圖,比如“第一人稱視角跟着角色走路”、“爲了展示風景”、“爲了跟蹤主體”等。這讓數據不僅有幾何信息,還有了 語義和敘事 的維度!
專家把關 + 魔鬼訓練營:
人類研究: 他們發現,有攝影經驗的“專家”比“小白”標註準確率高15% 以上!
培訓大法: 爲了保證大規模標註的質量,他們搞了個“培訓計劃”。提供詳細的圖文並茂指南(包含各種易錯點、邊界案例),讓標註員參加好幾輪考試(每輪標30個視頻),考完還有詳細的錯誤反饋 PDF!
效果驚人: 經過培訓,不管是專家還是小白,準確率都提升了10-15%!只有通過所有培訓(平均耗時20小時!)的人才能上崗。而且還有隨機抽查和反饋機制,保證質量。
這套流程下來,得到的數據質量槓槓的,既有結構化的標籤,又有豐富的自然語言描述。
是騾子是馬,拉出來遛遛!AI 們在 CameraBench 上的“期末考試”
有了這麼牛的教材和考卷(CameraBench),大佬們立刻把市面上主流的 AI 模型拉來“考試”了。考題包括:運動分類、視頻問答(VQA)、視頻描述生成、視頻文本檢索等。
考試結果(有點慘不忍睹,又有點意料之中):
幾何學霸 (SfM/SLAM) 的成績單:
強項: 處理簡單、靜態場景還行。基於學習的方法 (如 MegaSAM) 比傳統方法 (如 COLMAP) 對動態場景處理得更好。
弱項: 遇到主體在動、背景紋理少的視頻就抓瞎(圖7有例子,跟蹤拍攝時相機明明在後退,但因爲主體在畫面中相對靜止,AI 就認爲相機沒動,甚至直接崩潰!);對旋轉和移動分不清;完全不懂語義(比如無法判斷“這是不是一個跟蹤鏡頭”)。結論:基本功還行,應用題全掛。
語言達人 (VLM) 的成績單:
強項: 對語義理解有潛力!比如能大致判斷出“相機在跟着人走”。生成式 VLM(如 GPT-4o)普遍比判別式 VLM 表現好。
弱項: 幾何感知是硬傷!讓它們精確判斷是 Pan 還是 Truck,是 Dolly 還是 Zoom,基本靠蒙。在 VQA 測試中,很多模型表現還不如瞎猜。結論:會說漂亮話,但缺乏對物理世界的精確感知。
壓軸大戲:當語言達人上了“電影課”後…
既然 VLM 有潛力,大佬們就想:能不能用 CameraBench 的高質量數據給 VLM “補補課”呢?
他們選了個表現不錯的生成式 VLM (Qwen2.5-VL),用 CameraBench 的一部分數據(約1400個視頻)進行了 監督微調 (SFT)。注意,這只是個小規模的微調!
結果怎麼樣?
效果拔羣! 🚀
分類任務: 微調後的模型在鏡頭運動分類任務上,性能 提升了1-2倍! 整體表現追平了最好的幾何方法 MegaSAM!
生成任務(描述/VQA): 更是吊打之前的自己和其他 VLM!生成的鏡頭描述更準確、更細緻(看圖8、9、10的對比!)。VQA 任務也表現出色,尤其是在需要理解複雜邏輯和物體中心運動的任務上。
這說明什麼?
高質量、帶有精確幾何和語義標註的數據,對於提升 VLM 理解視頻動態(尤其是鏡頭運動)至關重要!CameraBench 提供的這套“教材”確實有效!
第四課:未來展望:讓 AI 真正“看懂”運動的世界
CameraBench 項目邁出了讓 AI 理解鏡頭運動的關鍵一步。它告訴我們:
需要專業的分類法: 定義清晰、參照系明確是基礎。
高質量數據是王道: 專家參與、嚴格的標註流程和培訓必不可少。
幾何和語義要結合: SfM/SLAM 和 VLM 各有優劣,未來需要融合兩者之長。
微調潛力巨大: 即使是小規模的高質量數據微調,也能顯著提升現有大模型的能力。
當然,研究還在繼續。未來可能需要更多樣、更刁鑽的數據,探索更有效的模型訓練方法,甚至讓 AI 不僅能識別運鏡,還能理解運鏡背後的情感和導演意圖。
下次你看片時,AI 可能比你更懂“鏡頭”了!
總而言之,CameraBench 不僅僅是一個數據集,它更像是一個 “AI 電影學院” 的雛形。它用嚴謹的方法論、專業的知識和高質量的數據,試圖教會 AI 這個“直男”如何欣賞和理解鏡頭運動這門充滿魅力的“視覺舞蹈”。
雖然現在的 AI 在這方面還像個剛入門的學生,但有了 CameraBench 這樣的“教科書”和“訓練場”,相信不久的將來,AI 不僅能看懂視頻裏的貓貓狗狗,更能和你一起討論:“哇,你看諾蘭這個旋轉鏡頭用得多妙!”
想了解更多技術細節可至項目頁查看~
項目地址:https://github.com/sy77777en/CameraBench
論文地址:https://arxiv.org/pdf/2504.15376