繼此前在語音 AI 領域引發一些關注後,OpenAI並未停下在該領域探索的腳步,現在這家ChatGPT的創造者再次發力,推出了三款全新的自主研發語音模型,分別爲:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受矚目的當屬gpt-4o-transcribe

QQ_1742519104437.png

目前,這些新模型已經率先通過應用程序接口(API)向第三方開發者開放,開發者們可以利用它們打造更智能的應用程序。同時,OpenAI也提供了一個名爲OpenAI.fm的演示網站,供個人用戶進行初步體驗。

QQ_1742518825138.png

核心功能大揭祕

那麼,這款備受期待的 gpt-4o-transcribe 究竟有何獨到之處呢?簡單來說,它可以看作是OpenAI兩年前發佈的開源語音轉錄模型Whisper的升級版,目標是提供更低的文字錯誤率更強大的性能

QQ_1742519122970.png

根據OpenAI官方數據顯示,在行業標準的33種語言測試中,gpt-4o-transcribe的錯誤率相較於Whisper有了顯著下降,尤其在英語方面,錯誤率更是低至2.46%!這對於需要高精度語音轉錄的場景來說,無疑是一個巨大的進步。

更值得一提的是,這款新模型在各種複雜環境下都能保持出色的性能。無論是身處嘈雜的環境,面對不同的口音,還是處理快慢不一的語速,gpt-4o-transcribe都能提供更準確的轉錄結果,並且它還支持超過100種語言

爲了進一步提升轉錄的準確性,gpt-4o-transcribe還加入了噪聲消除語義語音活動檢測技術。

OpenAI的技術人員Jeff Harris解釋說,後者可以幫助模型判斷說話者是否講完了一個完整的想法,從而避免斷句錯誤,提高整體的轉錄質量。此外,gpt-4o-transcribe還支持流式語音轉文本,開發者可以持續輸入音頻並實時獲得文本結果,使對話感覺更加自然。

需要注意的是,gpt-4o-transcribe模型家族**目前並不具備“說話人分離”(diarization)**的功能,也就是說,它主要專注於將接收到的音頻(可能包含多人的聲音)統一轉錄成文本,而不會區分和標記不同的說話人。

雖然這在某些需要區分發言人的場合可能有所限制,但其在提高整體轉錄準確性方面的優勢依然顯著。

開發者先行:API接口已開放

目前,gpt-4o-transcribe已經通過OpenAI的API接口提供給開發者使用。這意味着,開發者可以快速將這一強大的語音轉錄能力集成到自己的應用程序中,爲用戶帶來更便捷的語音交互體驗。

據OpenAI在直播中演示,對於已經基於GPT-4o等文本大模型構建的應用,只需要大約九行代碼 就能輕鬆添加語音交互功能。例如,電商應用可以快速實現語音回覆用戶關於訂單信息的諮詢。

不過,OpenAI方面也表示,考慮到ChatGPT在成本和性能方面的特殊需求,這些新模型暫時不會直接應用於ChatGPT,但預計未來會逐步整合。對於追求更低延遲、實時語音交互的開發者,OpenAI推薦使用其Realtime API中的語音到語音模型。

憑藉其強大的語音轉錄能力,gpt-4o-transcribe有望在多個領域大顯身手。OpenAI認爲,例如客戶呼叫中心會議紀要自動生成以及AI驅動的智能助手等場景都非常適合應用這項技術。一些已經體驗過新模型的公司也反饋稱,OpenAI的音頻模型顯著提升了語音AI的性能。

當然,OpenAI也面臨着來自其他語音AI公司的競爭,例如ElevenLabs推出的Scribe模型也具備較低的錯誤率和說話人分離功能。此外,Hume AI的Octave TTS模型則在發音和情感控制方面提供了更精細的自定義選項。開源社區也有不斷涌現的先進語音模型。

根據您提供的源,以下是 OpenAI 新語音模型的定價信息以及一些相關的競品價格:

模型API定價:

  • gpt-4o-transcribe: 每100萬個音頻輸入 tokens 的價格爲 $6.00,約合每分鐘 $0.006
  • gpt-4o-mini-transcribe: 每100萬個音頻輸入 tokens 的價格爲 $3.00,約合每分鐘 $0.003
  • gpt-4o-mini-tts: 每100萬個文本輸入 tokens 的價格爲 $0.60,每100萬個音頻輸出 tokens 的價格爲 $12.00,約合每分鐘 $0.015

競品模型定價:

  • ElevenLabs Scribe: 每小時音頻輸入的定價爲 $0.40,約合每分鐘 $0.006
  • Orpheus3B: 基於 Apache2.0許可開源,開發者可以免費使用,但需要自備相應的硬件或雲服務器。

需要注意的是,不同模型的計費方式可能存在差異(例如,基於 token 數量、時長等),因此直接比較價格時需要考慮這些因素。

OpenAI此次發佈的gpt-4o-transcribe等新語音模型,在語音轉錄領域展現出了強大的實力和潛力。雖然目前主要面向開發者,但其在提升語音交互體驗方面的價值不容忽視。未來,隨着技術的不斷髮展,我們或許能看到更多令人驚喜的語音AI應用涌現。

網站:https://top.aibase.com/tool/openai-fm

官方博客:https://openai.com/index/introducing-our-next-generation-audio-models/