Groq 最新上線了 Whisper Large-V3模型,用戶可以在 Playground 或本地項目中使用 API,實現語音轉錄和翻譯功能。該模型支持多種語言的轉錄,轉錄速度極快,且支持將其他語言翻譯成英文。

image.png

Playground鏈接:https://console.groq.com/playground

目前,用戶可以在 Playground 上體驗並免費使用該功能,轉錄一段4分30秒的視頻只需要大約3秒的時間。同時,Groq 還提供了 API 接口,用戶可以在本地項目中集成使用。

Whisper API的接口設計遵循了與OpenAI的兼容性標準,爲用戶提供了兩個核心功能的訪問路徑:語音轉文本和語音翻譯。用戶可以輕鬆地將這些功能集成到自己的應用程序中,無論是開發智能助手還是自動化翻譯系統,都能享受到便捷的開發體驗。

在性能方面,Whisper API採用了先進的"whisper-large-v3"模型,確保了在語音轉文本和翻譯任務中的頂尖性能。

此外,API對音頻文件的格式和大小也有明確的支持標準,包括mp3、mp4、wav等常見格式,但要求文件大小不超過25MB。特別值得注意的是,對於包含多個音軌的文件,Whisper API將僅處理第一個音軌,這要求用戶在上傳前進行適當的音頻預處理。

爲了提高轉錄的質量和效率,Whisper API在服務端會對音頻進行下采樣處理,降至16,000Hz的單聲道。Groq推薦用戶在客戶端完成這一預處理步驟,這不僅有助於減小文件體積,還能使得更長的音頻文件得以上傳和處理。

API 接口:

語音轉文本:https://api.groq.com/openai/v1/audio/transcriptions

語音翻譯:https://api.groq.com/openai/v1/audio/translations