法國初創公司Gladia提供了一種語音識別應用程序編程接口(API),在A輪融資中籌集了1600萬美元。本質上,Gladia的API能夠將任何音頻文件以高準確度和低延遲轉換成文本。
雖然亞馬遜、微軟和谷歌都作爲其雲託管產品套件的一部分提供了語音轉文本API,但它們的表現並不如一些專業初創公司提供的新型模型。尤其是自OpenAI發佈Whisper模型以來,這一領域在過去幾年取得了巨大進步。Gladia與AssemblyAI、Deepgram和Speechmatics等資金充足的公司競爭。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
Gladia最初提供了Whisper語音轉文本模型的微調版本,並進行了一些必要的改進。例如,該初創公司支持開箱即用的說話人分離——它能夠檢測對話中何時有多個說話者,並根據誰在說話來分離錄音和轉錄文本。
Gladia支持100種語言和多種口音。據報道,該工具確實有效,因爲我們一直在使用Gladia來轉錄一些採訪,口音並不是問題。
這家初創公司將其語音轉文本模型作爲託管API提供,用戶可以將其應用於自己的應用程序和服務中。超過600家公司使用Gladia,包括幾款會議記錄器和筆記助手,如Attention、Circleback、Method Financial、Recall、Sana和Veed.io。
這個特定的用例很有趣,因爲許多公司必須鏈式調用API。他們首先將語音轉換爲文本,然後將文本輸入到大型語言模型(LLM)中,如GPT-4o或Claude3.5Sonnet,以從大量文本中提取知識。
有了新資金,Gladia希望將音頻智能和基於LLM的任務集成到一個API調用中來簡化該流程。例如,客戶可以從幾個項目符號中生成對話摘要,而無需依賴第三方LLM API。
Gladia希望解決的另一個問題是延遲。你可能已經看到一些實時音頻對話的演示,這些對話使用了基於AI的呼叫代理(11x在其網站上有一個不錯的演示),這些系統必須能夠實時轉錄,以使對話聽起來儘可能像人類。
Gladia選擇解決這個問題,目前它能夠以低於300毫秒的延遲轉錄實時對話。該公司聲稱,實時處理現在與默認的異步批處理轉錄API一樣好,但沒有適當的測試很難判斷。正如聯合創始人兼首席執行官Jean-Louis Quéguiner(上圖右側)對TechCrunch所說,這家初創公司的目標是“具有實時能力的批處理質量”。
除了AI呼叫代理,可以想象呼叫中心使用這些實時功能來幫助呼叫代理在通話中間找到相關信息。“我們的單一API與所有現有的技術棧和協議兼容,包括SIP、VoIP、FreeSwitch和Asterisk,”聯合創始人兼首席技術官Jonathan Soto(上圖左側)在一份聲明中說。
XAnge領投了A輪融資。Illuminate Financial、XTX Ventures、Athletico Ventures、Gaingels、Mana Ventures、Motier Ventures、Roosh Ventures和Soma Capital也參與了融資。
Gladia認爲我們正處於音頻應用的“ChatGPT時刻”的邊緣。GPT技術已經存在多年,但ChatGPT通過其類似消費者聊天的界面真正普及了LLM。
隨着蘋果或谷歌開始在iOS或Android中包含轉錄模型,消費者將開始理解他們在使用的應用程序中自動轉錄的價值。然後開發者可能會將音頻功能集成到他們的產品中,這就是像Gladia這樣的API提供商的用武之地。