Meta 出品！Pippo：輸入單張人物圖片生高分辨率多視角圖片

近日，Meta Reality Labs 的研究團隊聯合高效發佈了一項名爲 “Pippo” 的創新性生成模型，能夠從一張隨意拍攝的照片中，生成一段高達1K 分辨率的密集週轉視頻。這一突破性技術，標誌着計算機視覺和圖像生成領域的又一重要進展。

Pippo 模型的核心在於其多視圖擴散轉換器的設計。與傳統的生成模型不同，Pippo 不需要任何額外的輸入，例如擬合的參數模型或拍攝該圖像的相機參數。用戶只需提供一張普通的照片，系統就能自動生成多視角的視頻效果，爲用戶呈現出更加生動和立體的人物形象。

爲了便於開發者使用，Pippo 此次發佈爲代碼 - only 版本，沒有預訓練權重。研究團隊提供了必要的模型、配置文件、推理代碼以及 Ava-256數據集的樣本訓練代碼。開發者可以通過簡單的命令克隆和設置代碼庫，快速上手進行訓練和應用。

Pippo 項目的未來計劃包括整理和清理代碼，以及推出針對預訓練模型的推理腳本。這些改進將進一步提升用戶體驗，推動該技術在實際應用中的廣泛使用。

項目:https://github.com/facebookresearch/pippo

劃重點:
🌟 Pippo 模型能夠從一張普通照片生成高分辨率的多視圖視頻，無需額外輸入。
💻 代碼僅發佈，沒有預訓練權重，開發者可自行訓練模型並進行應用。
🔍 團隊計劃未來推出更多功能和改進，以增強用戶體驗。

亞馬遜測試AI配送眼鏡，包裹導航與風險檢測一鏡完成

亞馬遜正爲送貨司機開發AI智能眼鏡，通過解放雙手提升配送效率與安全性。該眼鏡集成AI傳感、計算機視覺和攝像系統，可實時顯示道路危險、任務信息及環境數據，支持包裹掃描、路線導航和送達確認等操作，減少司機對手機的依賴。

性能反殺 10 倍體量對手：蘋果發佈 RubiCap 圖像描述框架