近日,GroqCloud 靜悄悄地推出了 Whisper V3 Large。趕緊嘗試吧,現在已經內置在 GroqChat 中,讓每個人都能體驗。
現在開發者們可以利用 Whisper 的語音轉文字功能以及我們的速度進行構建。 繼續構建吧 [體驗鏈接](https://groqchat.com)
IBM與Groq合作,將Watsonx Orchestrate平臺與GroqCloud推理技術結合,加速企業AI應用。該合作宣稱能提升成本效率,AI工作負載處理速度比傳統GPU快五倍以上,低延遲特性尤其適用於醫療、金融和政府等受監管行業。
近日,科技媒體 macstories 通過一項實測,揭示了蘋果公司全新推出的 Speech API 的強大性能。通過轉錄一段長達34分鐘、大小爲7GB 的4K 視頻,該技術僅用時45秒完成轉錄,速度之快令人驚歎。這項技術的推出是在2025年 WWDC 全球開發者大會上宣佈的,其中包括兩個重要模塊:SpeechAnalyzer 和 SpeechTranscriber。macstories 團隊使用了基於這些模塊開發的 Yap 應用工具,對其轉錄性能進行了詳細測試。結果顯示,Yap 在處理視頻時展現出了顯著的速度優勢,遠超目前市場上其他主流轉錄工具。在與競爭對手的
科技媒體 macstories 發佈了一篇關於蘋果新推出的 Speech API 的博文,引發了業界的廣泛關注。通過對一段時長34分鐘、大小達7GB 的4K 視頻文件進行轉錄測試,結果顯示,蘋果的新 Speech API 僅耗時45秒,速度遠超其他同類工具。相較之下,OpenAI 的 Whisper 轉錄時間爲101秒,蘋果的技術優勢可見一斑,提升了約55% 的效率。蘋果在2025年全球開發者大會 WWDC 上首次宣佈了這一 Speech 框架,框架中包含了 SpeechAnalyzer 和 SpeechTranscriber 兩款模塊。這一技術的推出,標誌着蘋果在語音處理領域的進一步突破,
在人工智能領域,語言模型的快速發展引發了語音理解語言模型(SULMs)的廣泛關注。近日,西北工業大學 ASLP 實驗室發佈了開放語音理解模型 OSUM,旨在探索在學術資源有限的情況下,如何有效訓練和利用語音理解模型,以推動學術界的研究與創新。OSUM 模型融合了 Whisper 編碼器與 Qwen2語言模型,支持8種語音任務,包括語音識別(ASR)、帶時間戳的語音識別(SRWT)、語音事件檢測(VED)、語音情感識別(SER)、說話風格識別(SSR)、說話人性別分類(SGC)、說話人年齡預測(SAP)及語音轉文本聊天(STTC)。
OpenAI 的首席執行官 Sam Altman 近日在社交媒體平臺 X 上發起了一項調查,詢問用戶對公司下一步開源開發方向的看法。這一舉動發生在 OpenAI 正在經歷重大轉型的背景下,公司正將其營利部門轉變爲公益公司。自從獲得微軟投資以來,OpenAI 與開源的關係發生了顯著變化。尤其是在 GPT-4發佈後,OpenAI 逐漸減少了開源貢獻,專注於更小規模的項目,如 Whisper。Altman 當時提到出於安全考慮而暫停開源,但他最近承認這種策略可能是錯誤的,因爲像 Deepseek 等競爭對手已經發布了他們的 V3和 R1模型。