科技媒體 macstories 發佈了一篇關於蘋果新推出的 Speech API 的博文,引發了業界的廣泛關注。通過對一段時長34分鐘、大小達7GB 的4K 視頻文件進行轉錄測試,結果顯示,蘋果的新 Speech API 僅耗時45秒,速度遠超其他同類工具。相較之下,OpenAI 的 Whisper 轉錄時間爲101秒,蘋果的技術優勢可見一斑,提升了約55% 的效率。
蘋果在2025年全球開發者大會 WWDC 上首次宣佈了這一 Speech 框架,框架中包含了 SpeechAnalyzer 和 SpeechTranscriber 兩款模塊。這一技術的推出,標誌着蘋果在語音處理領域的進一步突破,尤其是在速度和準確性方面的提升。
在具體的測試中,媒體使用了基於新模塊開發的 Yap 應用進行轉錄。通過對比不同工具的表現,Yap 以45秒的快速轉錄時間,成爲了市場上表現最優的選擇。相對而言,MacWhisper(基於 OpenAI 的 Whisper 開源語音轉錄模型)需要1分41秒,而 VidCap 則需要1分55秒。更早版本的 MacWhisper(V2)甚至要耗時3分55秒。
雖然所有測試工具在識別專有名詞時都出現了一定誤差,比如 “AppStories” 的識別,但 Yap 在本地化運算上的優勢,確保了其在處理多段視頻時的效率更爲顯著。通過計算每週處理多段視頻所節省的時間,用戶可以顯著提高工作效率。
這項技術的快速發展,不僅爲視頻內容創作者提供了便利,也爲後續的應用場景拓展奠定了基礎。未來,隨着 AI 技術的不斷演進,蘋果在語音識別領域可能會推出更多創新的解決方案,進一步提升用戶體驗。
劃重點:
🌟 蘋果新 Speech API 轉錄34分鐘4K 視頻僅需45秒,速度超越競爭對手。
⏱️ 與 OpenAI Whisper 相比,蘋果技術提升了約55% 的效率,表現顯著。
📈 本地化運算優勢使 Yap 在多段視頻處理上效率更高,爲用戶節省大量時間。