7月22日,騰訊混元宣佈其自主研發的ASR(語音識別)大模型正式應用於ima平臺,首次在手機App端實現了語音輸入功能,爲用戶帶來了“出口成章”的便捷體驗。用戶現在可以通過語音直接輸入問題或記錄靈感,無需手動敲擊鍵盤,極大地提升了輸入效率。
騰訊混元ASR大模型以其敏銳的聽覺和智能的理解能力脫穎而出,在複雜環境下依然能夠準確識別語音,每分鐘可識別300字,速度比手動輸入快4倍,且識別結果更加精準自然。該模型採用業界首個基於雙編碼器的流式ASR架構,相比傳統ASR技術,在語義理解能力上有了顯著提升,尤其在中英文混雜等場景中表現更爲出色。
此次ima平臺引入的語音輸入功能,覆蓋了知識庫問答、筆記創作等多個應用場景。用戶在進行知識庫查詢或首頁問答時,若問題較長,可直接通過語音輸入;在撰寫筆記時,ima則像一位會聽音的筆記小助手,幫助用戶進行創作,並能根據舊筆記快捷續寫,實現無縫銜接。此外,iOS用戶還可以通過添加桌面小組件,實現更快速的提問體驗。
騰訊混元團隊表示,未來將繼續優化ASR大模型,提升方言識別和多語言識別能力,不斷擴充支持的語言類型,以滿足不同場景下的使用需求。此次語音輸入功能的上線,不僅展示了騰訊混元在語音識別領域的技術實力,也爲用戶帶來了更加高效、便捷的輸入方式,開啓了智能交互的新篇章。