近日,Meta Reality Labs 的研究團隊聯合高效發佈了一項名爲 “Pippo” 的創新性生成模型,能夠從一張隨意拍攝的照片中,生成一段高達1K 分辨率的密集週轉視頻。這一突破性技術,標誌着計算機視覺和圖像生成領域的又一重要進展。
Pippo 模型的核心在於其多視圖擴散轉換器的設計。與傳統的生成模型不同,Pippo 不需要任何額外的輸入,例如擬合的參數模型或拍攝該圖像的相機參數。用戶只需提供一張普通的照片,系統就能自動生成多視角的視頻效果,爲用戶呈現出更加生動和立體的人物形象。
爲了便於開發者使用,Pippo 此次發佈爲代碼 - only 版本,沒有預訓練權重。研究團隊提供了必要的模型、配置文件、推理代碼以及 Ava-256數據集的樣本訓練代碼。開發者可以通過簡單的命令克隆和設置代碼庫,快速上手進行訓練和應用。
Pippo 項目的未來計劃包括整理和清理代碼,以及推出針對預訓練模型的推理腳本。這些改進將進一步提升用戶體驗,推動該技術在實際應用中的廣泛使用。
項目:https://github.com/facebookresearch/pippo
劃重點:
🌟 Pippo 模型能夠從一張普通照片生成高分辨率的多視圖視頻,無需額外輸入。
💻 代碼僅發佈,沒有預訓練權重,開發者可自行訓練模型並進行應用。
🔍 團隊計劃未來推出更多功能和改進,以增強用戶體驗。