AI語音轉錄工具Whisper被曝存在嚴重“幻覺” ，時常瞎編胡造

最近，一款由 OpenAI 的 Whisper 技術驅動的 AI 轉錄工具在醫療行業廣受歡迎。許多醫生和醫療機構都在使用這個工具來記錄和總結與患者的會面。

根據 ABC 新聞的報道，研究人員卻發現這款工具在某些情況下會出現 “幻覺” 現象，有時甚至會完全編造內容。

這款由名爲 Nabla 的公司開發的轉錄工具，已經成功轉錄了超過700萬次醫學對話，目前有超過3萬名臨牀醫生和40個健康系統在使用它。儘管如此，Nabla 公司也意識到了 Whisper 會產生幻覺的可能性，並表示正在努力解決這個問題。

一組來自康奈爾大學、華盛頓大學等機構的研究人員進行了一項研究，發現 Whisper 在大約1% 的轉錄中會出現幻覺。在這些情況下，工具會在錄音的沉默時段內隨機生成一些毫無意義的短語，甚至有時候表達出暴力情緒。這些研究人員從 TalkBank 的 AphasiaBank 中收集了音頻樣本，並指出，當語言障礙患者說話時，沉默的現象尤爲常見。

康奈爾大學的研究員艾莉森・科內克（Allison Koenecke）在社交媒體上分享了一些示例，展示了 Whisper 生成的幻覺內容。研究人員發現，工具所生成的內容中還包括一些虛構的醫學術語，甚至是類似於 “感謝觀看!” 這樣的短語，這些句子聽起來就像是 YouTube 視頻中的話語。

這項研究於6月在巴西的計算機協會 FAccT 會議上進行展示，但目前尚不清楚是否經過同行評審。對於這一問題，OpenAI 的發言人 Taya Christianson 在接受《The Verge》採訪時表示，他們非常重視這個問題，並會持續努力改善，尤其是在減少幻覺方面。同時，她提到，在他們的 API 平臺上使用 Whisper 時，有明確的使用政策禁止在某些高風險決策環境中使用該工具。

劃重點:
🌟 Whisper 轉錄工具在醫療行業使用廣泛，已記錄700萬次醫學對話。
⚠️ 研究發現 Whisper 在約1% 的轉錄中會出現 “幻覺”，有時會生成毫無意義的內容。
🔍 OpenAI 表示正在努力改善工具性能，特別是在減少幻覺現象方面。

蘋果新 Speech 技術出擊！34分鐘4K視頻轉錄僅需45秒，速度超OpenAI 55%

近日，科技媒體 macstories 通過一項實測，揭示了蘋果公司全新推出的 Speech API 的強大性能。通過轉錄一段長達34分鐘、大小爲7GB 的4K 視頻，該技術僅用時45秒完成轉錄，速度之快令人驚歎。這項技術的推出是在2025年 WWDC 全球開發者大會上宣佈的，其中包括兩個重要模塊:SpeechAnalyzer 和 SpeechTranscriber。macstories 團隊使用了基於這些模塊開發的 Yap 應用工具，對其轉錄性能進行了詳細測試。結果顯示，Yap 在處理視頻時展現出了顯著的速度優勢，遠超目前市場上其他主流轉錄工具。在與競爭對手的

蘋果新Speech API轉錄速度驚人，勝過OpenAI Whisper 55%

科技媒體 macstories 發佈了一篇關於蘋果新推出的 Speech API 的博文，引發了業界的廣泛關注。通過對一段時長34分鐘、大小達7GB 的4K 視頻文件進行轉錄測試，結果顯示，蘋果的新 Speech API 僅耗時45秒，速度遠超其他同類工具。相較之下，OpenAI 的 Whisper 轉錄時間爲101秒，蘋果的技術優勢可見一斑，提升了約55% 的效率。蘋果在2025年全球開發者大會 WWDC 上首次宣佈了這一 Speech 框架，框架中包含了 SpeechAnalyzer 和 SpeechTranscriber 兩款模塊。這一技術的推出，標誌着蘋果在語音處理領域的進一步突破，

西北工業大學開源語音理解模型OSUM，結合Whisper和Qwen2，支持8種語音理解任務

在人工智能領域，語言模型的快速發展引發了語音理解語言模型（SULMs）的廣泛關注。近日，西北工業大學 ASLP 實驗室發佈了開放語音理解模型 OSUM，旨在探索在學術資源有限的情況下，如何有效訓練和利用語音理解模型，以推動學術界的研究與創新。OSUM 模型融合了 Whisper 編碼器與 Qwen2語言模型，支持8種語音任務，包括語音識別（ASR）、帶時間戳的語音識別(SRWT)、語音事件檢測(VED)、語音情感識別(SER)、說話風格識別(SSR)、說話人性別分類(SGC)、說話人年齡預測(SAP)及語音轉文本聊天(STTC)。

OpenAI CEO在社交平臺徵詢用戶意見，或暗示重返開源之路

OpenAI 的首席執行官 Sam Altman 近日在社交媒體平臺 X 上發起了一項調查，詢問用戶對公司下一步開源開發方向的看法。這一舉動發生在 OpenAI 正在經歷重大轉型的背景下，公司正將其營利部門轉變爲公益公司。自從獲得微軟投資以來，OpenAI 與開源的關係發生了顯著變化。尤其是在 GPT-4發佈後，OpenAI 逐漸減少了開源貢獻，專注於更小規模的項目，如 Whisper。Altman 當時提到出於安全考慮而暫停開源，但他最近承認這種策略可能是錯誤的，因爲像 Deepseek 等競爭對手已經發布了他們的 V3和 R1模型。

Gladia語音識別API獲1600萬美元A輪融資，挑戰亞馬遜、微軟和谷歌

法國初創公司Gladia提供了一種語音識別應用程序編程接口（API），在A輪融資中籌集了1600萬美元。本質上，Gladia的API能夠將任何音頻文件以高準確度和低延遲轉換成文本。雖然亞馬遜、微軟和谷歌都作爲其雲託管產品套件的一部分提供了語音轉文本API，但它們的表現並不如一些專業初創公司提供的新型模型。尤其是自OpenAI發佈Whisper模型以來，這一領域在過去幾年取得了巨大進步。Gladia與AssemblyAI、Deepgram和Speechmatics等資金充足的公司競爭。圖源備註：圖片由AI生成，圖片授權服務商MidjourneyGl