Nexa AI近日推出了其全新的OmniAudio-2.6B音頻語言模型,旨在滿足邊緣設備的高效部署需求。與傳統的將自動語音識別(ASR)和語言模型分開的架構不同,OmniAudio-2.6B將Gemma-2-2b、Whisper Turbo以及定製的投影儀集成到一個統一框架中,這一設計消除了傳統系統中各個組件鏈接所帶來的低效率和延遲,特別適用於計算資源有限的設備。
主要亮點:
處理速度: OmniAudio-2.6B在性能上表現出色。在2024Mac Mini M4Pro上,使用Nexa SDK並採用FP16GGUF格式時,模型可實現每秒35.23個令牌的處理速度,而在Q4_K_M GGUF格式下,可處理每秒66個令牌。與之對比,Qwen2-Audio-7B在相似硬件上只能處理每秒6.38個令牌,展示出顯著的速度優勢。資源效率: 該模型的緊湊設計有效減少了對雲資源的依賴,使其成爲功率和帶寬受限的可穿戴設備、汽車系統及物聯網設備的理想選擇。這一特點使其能夠在有限的硬件條件下實現高效運行。高準確性和靈活性: 儘管OmniAudio-2.6B專注於速度和效率,其在準確性方面也表現不俗,適用於轉錄、翻譯、摘要等多種任務。無論是實時語音處理還是複雜的語言任務,OmniAudio-2.6B都能夠提供精準的結果。
OmniAudio-2.6B的推出標誌着Nexa AI在音頻語言模型領域的又一重要進步,其優化的架構不僅提升了處理速度和效率,也爲邊緣計算設備帶來了更多可能。隨着物聯網和可穿戴設備的不斷普及,OmniAudio-2.6B有望在多個應用場景中發揮重要作用。
模型地址:https://huggingface.co/NexaAIDev/OmniAudio-2.6B
產品地址:https://nexa.ai/blogs/omniaudio-2.6b