李沐團隊發佈 Higgs Audio v2，開創語音合成新紀元

知名 AI 創業者李沐與他的團隊 Boson.ai 最近推出了全新的開源文本轉語音（TTS）大模型 ——Higgs Audio v2。這款模型不僅可以將文本轉換爲語音，還具備多語言對話生成、韻律自動調整和聲音克隆等多種功能，堪稱語音合成領域的一次重大突破。

Higgs Audio v2的強大之處在於其多模態能力，它不僅能夠處理文本信息，還能理解和生成語音，完成複雜任務。例如，它可以寫一首歌並用特定的聲音演唱，同時還可以配上背景音樂，這在以前的 TTS 技術中是不可想象的。

該模型融合了多達1000萬小時的語音數據進行訓練，確保其在各種基準測試中的優異表現。根據 EmergentTTS-Eval 測試，Higgs Audio v2在 “情緒” 和 “問題” 兩個類別中，勝率分別超過了 GPT-4o-mini-tts 高達75.7% 和55.7%。在傳統的 TTS 測試中，該模型同樣展現了超凡的性能，成爲行業標杆。

技術上，Higgs Audio v2採用先進的數據處理方式，每秒25幀的語音信號通過離散化音頻分詞器轉化爲編號序列，從而精準捕捉語義與聲學特徵。同時，模型架構利用了預訓練的大型語言模型，使其在理解語言和上下文方面具備了強大的能力。此外，該模型還具備上下文學習能力，能通過簡單提示快速適應新的任務，實現零樣本的語音克隆。

在應用場景上，Higgs Audio v2能夠實現實時語音聊天，提供低延遲和情感表達的自然互動，非常適合用在虛擬主播和實時語音助手中。同時，音頻內容創作方面，它能夠生成自然對話和旁白，爲有聲讀物、互動培訓及動態故事講述等提供強大支持。最後，語音克隆功能讓它能夠複製特定人物的聲音，開啓娛樂和創意領域的新可能性。

這款模型的代碼已經全部開源，用戶可以在 GitHub 和 Hugging Face 平臺上找到，支持在本地安裝，用戶需準備 GPU 版的 PyTorch 或使用 Docker 進行簡化安裝。

Sora2浮出水面:OpenAI 欲在生成式AI視頻領域重奪C位

OpenAI正祕密開發Sora視頻生成模型的升級版Sora2，服務器代碼中已出現相關引用。此前發佈的Sora雖熱度下降，但近期被微軟整合進Bing Video Creator重獲關注。與此同時，谷歌Veo3已向大學生免費開放，普通用戶也可通過Google Cloud體驗。兩大科技巨頭在生成式AI視頻領域的競爭日趨白熱化，Sora2的發佈或將重塑行業格局和內容創作方式。

挑戰AI極限！首屆K獎編程大賽揭曉，頂尖模型成績慘淡！

首屆K獎AI編程挑戰賽結果令人意外：巴西程序員僅答對7.5%問題即獲5萬美元獎金。該賽事由Databricks聯合創始人發起，採用嚴格"無污染"測試機制，使用GitHub最新問題評估AI編程能力。與SWE-Bench測試75%的高分形成鮮明對比，暴露出當前AI模型的侷限性。主辦方設立100萬美元懸賞，激勵開源模型突破90%正確率。賽事引發行業對AI評估標準的反思，專家認爲此類挑戰對解決AI評估難題至關重要。

瑞典AI編程獨角獸Lovable狂飆突進！8個月營收破億美元，230萬用戶見證編程革命

瑞典AI編程公司Lovable創下驚人紀錄：成立僅8個月即實現年經常性收入1億美元，成爲歐洲罕見"半人馬"企業。這家專注"氛圍編程"的創新公司以45人團隊服務230萬用戶，人均創收超200萬美元。其AI驅動開發工具已創建1000萬項目，獲Klarna等企業青睞。CEO主動降級150萬美元收入以優化用戶體驗，新推商業版瞄準企業市場。這一案例展現了AI如何重塑軟件開發，也標誌着歐洲科技創新的新高度。

YouTube Shorts將推全新AI特效照片秒變視頻！

YouTube短視頻平臺Shorts推出革命性AI創作工具：1）全新圖片轉視頻功能可將靜態照片6秒內轉化爲動態視頻；2）基於Veo2模型的AI特效可實現塗鴉變藝術品、自拍變奇幻視頻等創意效果；3）下週起在美加澳新率先上線，未來將擴展更多地區；4）所有AI內容將添加SynthID水印確保透明度；5）今夏將推出支持音視頻同步生成的Veo3工具；6）同步推出AI遊樂場功能整合各類創意工具。這些創新將大幅降低創作門檻，推動短視頻進入AI驅動新時代。

谷歌 CEO 稱 “人工智能正積極推動業務的每個部分”

谷歌CEO皮查伊在最新財報中強調AI正推動公司各業務增長，第二季度收入達964億美元（同比+14%）。AI概述和AI模式表現亮眼，全球月活用戶超20億。公司計劃追加100億美元資本支出至850億，加速數據中心建設以應對競爭。同時谷歌面臨反壟斷訴訟風險，並更新了十年未變的"G"標誌。

李沐團隊發佈 Higgs Audio v2，開創語音合成新紀元

相關推薦

Sora2浮出水面:OpenAI 欲在生成式AI視頻領域重奪C位

挑戰AI極限！首屆K獎編程大賽揭曉，頂尖模型成績慘淡！

瑞典AI編程獨角獸Lovable狂飆突進！8個月營收破億美元，230萬用戶見證編程革命

YouTube Shorts將推全新AI特效 照片秒變視頻！

​谷歌 CEO 稱 “人工智能正積極推動業務的每個部分”

YouTube Shorts將推全新AI特效照片秒變視頻！

谷歌 CEO 稱 “人工智能正積極推動業務的每個部分”