Stability AI因其Stable Diffusion文本生成圖像模型而聞名。最近,該公司與全球半導體巨頭 Arm 展開合作,致力於將生成音頻人工智能能力引入移動設備。這一合作使得Stable Audio Open模型能夠完全在 Arm CPU 上運行,用戶可以在設備上快速生成音效、音頻樣本和製作元素,且無需互聯網連接。
Stability AI表示,隨着生成性人工智能在企業和專業創作者中的應用越來越廣泛,確保我們的模型和工作流程在各個創造領域都能便捷使用顯得尤爲重要。這不僅能夠提升創作效率,也有助於將這些技術無縫整合進視覺媒體制作流程中。
面對不斷增長的需求,該公司旨在提高其模型在邊緣設備上的運行效率。在優化Stable Audio Open模型以適應移動設備的過程中,初始測試在一臺 Arm CPU 設備上生成音頻的時間達到了240秒。通過對模型的蒸餾處理,並利用 Arm 的軟件棧,特別是通過 XNNPack 的 KleidiAI 中的 int8矩陣乘法內核,該公司成功將生成一個11秒音頻片段的時間縮短至8秒,提升了30倍的響應速度。
需要注意的是,用戶需要一部兼容的移動設備才能體驗這一功能。考慮到如今大多數智能手機都配備 Arm 架構的 CPU,因此這一技術應對各類用戶而言都變得更加可及。未來,Stability AI還計劃將其在圖像、視頻和3D 領域的所有模型都帶到邊緣設備,旨在徹底改變移動設備上的視覺媒體創作方式。
劃重點:
🌟 Stability AI能與 Arm 合作,推出可在移動設備上離線生成音頻的技術。
⚡ 通過模型蒸餾和軟件優化,音頻生成時間從240秒縮短至8秒,效率提升30倍。
📱 這一技術可在大多數搭載 Arm CPU 的智能手機上使用,未來將擴展到更多媒體創作領域。