松下控股公司(Panasonic HD)聯合美國松下研發公司(PRDCA)及加州大學洛杉磯分校(UCLA)的研究人員,成功開發出名爲 “OmniFlow” 的多模態生成 AI。這項技術的亮點在於其具備 “任意對任意” 的生成能力,可以實現文本、圖像和音頻之間的自由轉換,極大地提升了多模態生成 AI 的應用潛力。

image.png

近年來,多模態生成 AI 的研究越來越受到關注,尤其是結合音頻的生成技術。然而,傳統方法在數據獲取上存在侷限,尤其是在同時處理文本、圖像和音頻數據時,所需的訓練數據量和成本大幅增加。針對這一難題,OmniFlow 通過靈活結合針對不同數據格式的生成 AI(如文本與音頻、文本與圖像),即使在小樣本情況下,也能學習到高精度的 “任意對任意” 模型,從而顯著降低了數據採集的成本。

image.png

OmniFlow 的技術創新已獲得國際認可,並將在2025年計算機視覺與模式識別會議(CVPR)上進行展示。該技術的核心在於,它能夠通過連接和處理三種不同數據特徵,學習更爲複雜的數據關係,而不是簡單地對輸入數據進行平均處理。這種方法讓 OmniFlow 在生成過程中不僅保留了各模態的特點,也提升了表達能力。

image.png

在評估實驗中,OmniFlow 在 “文本轉圖像” 和 “文本轉音頻” 的生成任務中,表現優於其他傳統方法,展現出最佳的性能。實驗結果顯示,與其他 “任意對任意” 生成方法相比,OmniFlow 所需的訓練數據量可減少至1/60,這一顯著的優勢讓其在多模態 AI 領域脫穎而出。

展望未來,OmniFlow 有望在工廠、生活方式等多個領域進行應用,能夠生成各種專門針對特定場景的數據。松下控股將繼續推動 AI 的社會化應用,致力於開發能爲客戶生活與工作帶來便利的 AI 技術。