Gladia語音識別API獲1600萬美元A輪融資，挑戰亞馬遜、微軟和谷歌

法國初創公司Gladia提供了一種語音識別應用程序編程接口（API），在A輪融資中籌集了1600萬美元。本質上，Gladia的API能夠將任何音頻文件以高準確度和低延遲轉換成文本。

雖然亞馬遜、微軟和谷歌都作爲其雲託管產品套件的一部分提供了語音轉文本API，但它們的表現並不如一些專業初創公司提供的新型模型。尤其是自OpenAI發佈Whisper模型以來，這一領域在過去幾年取得了巨大進步。Gladia與AssemblyAI、Deepgram和Speechmatics等資金充足的公司競爭。

音頻聲波

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

Gladia最初提供了Whisper語音轉文本模型的微調版本，並進行了一些必要的改進。例如，該初創公司支持開箱即用的說話人分離——它能夠檢測對話中何時有多個說話者，並根據誰在說話來分離錄音和轉錄文本。

Gladia支持100種語言和多種口音。據報道，該工具確實有效，因爲我們一直在使用Gladia來轉錄一些採訪，口音並不是問題。

這家初創公司將其語音轉文本模型作爲託管API提供，用戶可以將其應用於自己的應用程序和服務中。超過600家公司使用Gladia，包括幾款會議記錄器和筆記助手，如Attention、Circleback、Method Financial、Recall、Sana和Veed.io。

這個特定的用例很有趣，因爲許多公司必須鏈式調用API。他們首先將語音轉換爲文本，然後將文本輸入到大型語言模型（LLM）中，如GPT-4o或Claude3.5Sonnet，以從大量文本中提取知識。

有了新資金，Gladia希望將音頻智能和基於LLM的任務集成到一個API調用中來簡化該流程。例如，客戶可以從幾個項目符號中生成對話摘要，而無需依賴第三方LLM API。

Gladia希望解決的另一個問題是延遲。你可能已經看到一些實時音頻對話的演示，這些對話使用了基於AI的呼叫代理（11x在其網站上有一個不錯的演示），這些系統必須能夠實時轉錄，以使對話聽起來儘可能像人類。

Gladia選擇解決這個問題，目前它能夠以低於300毫秒的延遲轉錄實時對話。該公司聲稱，實時處理現在與默認的異步批處理轉錄API一樣好，但沒有適當的測試很難判斷。正如聯合創始人兼首席執行官Jean-Louis Quéguiner（上圖右側）對TechCrunch所說，這家初創公司的目標是“具有實時能力的批處理質量”。

除了AI呼叫代理，可以想象呼叫中心使用這些實時功能來幫助呼叫代理在通話中間找到相關信息。“我們的單一API與所有現有的技術棧和協議兼容，包括SIP、VoIP、FreeSwitch和Asterisk，”聯合創始人兼首席技術官Jonathan Soto（上圖左側）在一份聲明中說。

XAnge領投了A輪融資。Illuminate Financial、XTX Ventures、Athletico Ventures、Gaingels、Mana Ventures、Motier Ventures、Roosh Ventures和Soma Capital也參與了融資。

Gladia認爲我們正處於音頻應用的“ChatGPT時刻”的邊緣。GPT技術已經存在多年，但ChatGPT通過其類似消費者聊天的界面真正普及了LLM。

隨着蘋果或谷歌開始在iOS或Android中包含轉錄模型，消費者將開始理解他們在使用的應用程序中自動轉錄的價值。然後開發者可能會將音頻功能集成到他們的產品中，這就是像Gladia這樣的API提供商的用武之地。

蘋果新 Speech 技術出擊！34分鐘4K視頻轉錄僅需45秒，速度超OpenAI 55%

近日，科技媒體 macstories 通過一項實測，揭示了蘋果公司全新推出的 Speech API 的強大性能。通過轉錄一段長達34分鐘、大小爲7GB 的4K 視頻，該技術僅用時45秒完成轉錄，速度之快令人驚歎。這項技術的推出是在2025年 WWDC 全球開發者大會上宣佈的，其中包括兩個重要模塊:SpeechAnalyzer 和 SpeechTranscriber。macstories 團隊使用了基於這些模塊開發的 Yap 應用工具，對其轉錄性能進行了詳細測試。結果顯示，Yap 在處理視頻時展現出了顯著的速度優勢，遠超目前市場上其他主流轉錄工具。在與競爭對手的

蘋果新Speech API轉錄速度驚人，勝過OpenAI Whisper 55%

科技媒體 macstories 發佈了一篇關於蘋果新推出的 Speech API 的博文，引發了業界的廣泛關注。通過對一段時長34分鐘、大小達7GB 的4K 視頻文件進行轉錄測試，結果顯示，蘋果的新 Speech API 僅耗時45秒，速度遠超其他同類工具。相較之下，OpenAI 的 Whisper 轉錄時間爲101秒，蘋果的技術優勢可見一斑，提升了約55% 的效率。蘋果在2025年全球開發者大會 WWDC 上首次宣佈了這一 Speech 框架，框架中包含了 SpeechAnalyzer 和 SpeechTranscriber 兩款模塊。這一技術的推出，標誌着蘋果在語音處理領域的進一步突破，

西北工業大學開源語音理解模型OSUM，結合Whisper和Qwen2，支持8種語音理解任務

在人工智能領域，語言模型的快速發展引發了語音理解語言模型（SULMs）的廣泛關注。近日，西北工業大學 ASLP 實驗室發佈了開放語音理解模型 OSUM，旨在探索在學術資源有限的情況下，如何有效訓練和利用語音理解模型，以推動學術界的研究與創新。OSUM 模型融合了 Whisper 編碼器與 Qwen2語言模型，支持8種語音任務，包括語音識別（ASR）、帶時間戳的語音識別(SRWT)、語音事件檢測(VED)、語音情感識別(SER)、說話風格識別(SSR)、說話人性別分類(SGC)、說話人年齡預測(SAP)及語音轉文本聊天(STTC)。

OpenAI CEO在社交平臺徵詢用戶意見，或暗示重返開源之路

OpenAI 的首席執行官 Sam Altman 近日在社交媒體平臺 X 上發起了一項調查，詢問用戶對公司下一步開源開發方向的看法。這一舉動發生在 OpenAI 正在經歷重大轉型的背景下，公司正將其營利部門轉變爲公益公司。自從獲得微軟投資以來，OpenAI 與開源的關係發生了顯著變化。尤其是在 GPT-4發佈後，OpenAI 逐漸減少了開源貢獻，專注於更小規模的項目，如 Whisper。Altman 當時提到出於安全考慮而暫停開源，但他最近承認這種策略可能是錯誤的，因爲像 Deepseek 等競爭對手已經發布了他們的 V3和 R1模型。

AI語音轉錄工具Whisper被曝存在嚴重“幻覺” ，時常瞎編胡造

最近，一款由 OpenAI 的 Whisper 技術驅動的 AI 轉錄工具在醫療行業廣受歡迎。許多醫生和醫療機構都在使用這個工具來記錄和總結與患者的會面。根據 ABC 新聞的報道，研究人員卻發現這款工具在某些情況下會出現 “幻覺” 現象，有時甚至會完全編造內容。這款由名爲 Nabla 的公司開發的轉錄工具，已經成功轉錄了超過700萬次醫學對話，目前有超過3萬名臨牀醫生和40個健康系統在使用它。儘管如此，Nabla 公司也意識到了 Whisper 會產生幻覺的可能性，並表示正在努力解決這個問題。一組來自康