上海人工智能實驗室與浙江大學等機構近日聯合推出IWR-Bench,這是首個專門評估大語言模型將視頻轉化爲交互式網頁代碼能力的基準測試。該基準旨在更真實地衡量多模態大語言模型(LVLM)在動態網頁重建方面的能力,填補了AI前端開發領域動態交互評測的空白。
與傳統的圖像轉代碼(Image-to-Code)任務不同,IWR-Bench要求模型觀看記錄用戶完整操作流程的視頻,結合網頁所需的所有靜態資源,重建網頁的動態交互行爲。任務複雜度涵蓋從簡單的網頁瀏覽到複雜的遊戲規則重建,包括2048遊戲、機票預訂等多種應用場景。
測試結果顯示了當前AI模型在這一任務上的顯著侷限。在對28個主流模型的評測中,表現最好的GPT-5綜合得分僅爲36.35分,其中交互功能正確性(IFS)得分爲24.39%,視覺保真度(VFS)得分爲64.25%。這一數據清晰反映出模型在視覺還原方面相對較強,但在實現事件驅動邏輯和動態交互功能方面存在明顯短板。

從評測方法來看,IWR-Bench不僅關注模型的視覺還原能力,還通過自動化代理評估其交互功能的正確性。每個任務都提供完整的靜態資源,且所有文件名經過匿名化處理,迫使模型依靠視覺匹配而非語義推理來關聯資源。這種設計更貼近真實開發場景,要求模型理解操作視頻中的因果關係和狀態變化,然後將其轉化爲可執行的代碼邏輯。
研究人員還發現了一些有趣的現象。帶有"思考"機制的模型版本在某些任務中表現更好,但提升幅度有限,表明基礎模型的能力仍是決定性因素。此外,專門針對視頻理解優化的模型在該任務中的表現並不如通用多模態模型,說明視頻轉網頁任務與傳統視頻理解任務存在本質差異——前者需要的不僅是理解視頻內容,更需要將動態行爲抽象爲程序邏輯。

從技術挑戰來看,視頻轉網頁任務的難點在於多個層面。首先是時序理解,模型需要從連續的視頻幀中提取關鍵交互事件和狀態轉換。其次是邏輯抽象,需要將觀察到的行爲模式轉化爲事件監聽、狀態管理等編程概念。第三是資源匹配,在匿名化的靜態資源中準確找到對應的圖片、樣式等文件。第四是代碼生成,需要產生結構合理、邏輯正確的HTML、CSS和JavaScript代碼。
GPT-5僅獲得36.35分的綜合得分,說明即使是最先進的多模態模型,在將動態行爲轉化爲可執行代碼這一任務上仍有很大提升空間。24.39%的交互功能正確率意味着模型生成的網頁中,超過四分之三的交互功能存在問題。這可能包括事件響應不正確、狀態管理錯誤、業務邏輯遺漏等問題。

IWR-Bench的推出對AI研究和應用都有重要意義。從研究角度看,它爲多模態模型的動態理解和代碼生成能力提供了新的評測維度,有助於識別當前技術的薄弱環節。從應用角度看,視頻轉網頁能力如果成熟,可以大幅降低前端開發的門檻,讓非技術人員通過演示操作就能生成功能原型。
不過需要注意的是,即使模型在該基準上取得高分,距離實際應用仍有距離。真實的網頁開發涉及性能優化、兼容性處理、安全防護、可維護性等多個維度,這些都難以通過視頻演示來完全傳達。此外,複雜的業務邏輯、邊緣情況處理和用戶體驗細節,也很難僅從操作視頻中完全推斷出來。
從行業趨勢來看,IWR-Bench代表了AI代碼生成從靜態向動態、從單幀向多幀、從描述向演示的演進方向。這與當前AI編碼助手主要依賴文本描述的模式形成對比,爲"所見即所得"的智能開發工具提供了技術基礎。如果未來模型在該任務上取得突破,可能催生新一代的原型開發工具,讓產品經理或設計師通過錄制操作視頻就能生成可交互的網頁原型。
從測試結果來看,當前AI模型在理解複雜動態交互方面仍處於早期階段。視覺保真度64.25%相對較高,說明模型已經能夠較好地還原頁面的靜態外觀。但交互功能正確性僅24.39%,表明將觀察到的行爲轉化爲正確的程序邏輯仍是巨大挑戰。這種差距反映了AI在"看懂"和"做對"之間的鴻溝——能識別視覺元素不等於能理解背後的交互邏輯。
IWR-Bench的意義不僅在於提供了一個評測工具,更在於明確了AI多模態能力發展的一個重要方向。隨着該基準的推廣,可以預期會有更多研究聚焦於動態行爲理解、時序推理和代碼生成的結合,推動多模態大模型在實際開發場景中的應用價值。
