首個會話音頻開源模型Hertz-dev 120毫秒超低延遲驚豔全網

一個革命性的開源音頻模型——Hertz-dev橫空出世，憑藉其驚人的性能指標，讓全球開發者爲之震撼。這款擁有85億參數的AI語音巨獸，通過2000萬小時高質量音頻數據的訓練，成功實現了人類夢寐以求的全雙工實時對話。

最令人驚歎的是其120毫秒的超低延遲表現，較現有公開模型足足提升了一倍，讓人機對話體驗提升到了一個全新境界。想象一下，當你在和AI對話時，不必再等待對方說完就能自然插話，就像真實的人類對話一樣流暢自然。

Hertz-dev的核心突破包括:

突破性全雙工技術:徹底顛覆傳統輪流發言模式，實現真正的雙向實時交流

卓越音頻壓縮:在保證高音質的同時，大幅降低帶寬佔用

超長對話能力:輕鬆理解和生成持續性對話內容

革命性低延遲:120毫秒的響應速度，開創實時互動新紀元

作爲一個專注音頻的Transformer基礎模型，Hertz-dev在訓練過程中充分利用了真實世界的對話數據，成功捕捉了人類語音中的細微特徵，包括自然的停頓節奏和豐富的情感語調變化。

對開發者而言，這是一個極具價值的開源寶藏。他們可以自由下載模型，根據具體應用場景進行微調，打造各類創新語音應用。這意味着，從客服機器人到語音助手，從教育輔導到娛樂互動，都將迎來質的飛躍。

項目地址：https://github.com/Standard-Intelligence/hertz-dev

InstantX圖像生成黑科技！可精確控制 FLUX 生成圖片時每個區域的內容

在AI繪畫領域，一項革命性的技術剛剛問世。InstantX推出的Regional-Prompting-FLUX技術讓AI繪畫的精準度達到了前所未有的高度，無需額外訓練即可實現圖片內容的精細化控制，爲創作者們帶來了全新的創作可能。這項突破性技術最令人驚歎的是其強大的區域控制能力。通過FLUX，創作者可以精確指定圖片中不同區域的生成內容和風格。比如，你可以在同一張圖片中讓一部分區域呈現寫實風格，而另一部分則展現2D動漫效果，實現風格的完美融合。FLUX的技術優勢不僅體現在創作自由度上，更在於其

谷歌在沙特阿拉伯開設人工智能中心，支持石油和天然氣生產

谷歌宣佈將在沙特阿拉伯建立一個以人工智能爲重點的新數據中心，引發了人們對其氣候目標的質疑。儘管谷歌在2020年表示將停止開發石油和天然氣生產算法，並在2021年承諾減少排放量，但該公司仍然決定在依賴化石燃料的沙特阿拉伯建立新的數據中心。新的人工智能中心將支持對阿拉伯語人工智能模型和“沙特特定人工智能應用”的研究。國有石油公司阿美公司表示，目前其整個運營過程中都使用人工智能。在一個油田，該技術已幫助將產量提高了15%。谷歌和沙特公共投資基金都沒有

超快速文本轉語音模型Lightning：超低延遲， 100毫秒生成10秒音頻

近日，總部位於美國加州舊金山的 AI 初創公司 smallest.ai 推出了其新產品 Lightning，一款能夠在100毫秒內生成長達10秒音頻的文本轉語音（TTS）模型。此項技術的進步，使得全球開發者能夠構建高仿真度的語音機器人應用，且延遲時間極短，降低了實施成本，提高了應用的可及性。Lightning 目前支持英語和印地語的多種口音，團隊還計劃迅速添加更多語言，以滿足市場需求。這款模型的定價爲每分鐘僅需0.02美元（約1.6印度盧比），爲語音機器人開發者提供了一種極具成本效益的解決方案，應用

首個會話音頻開源模型Hertz-dev 120毫秒超低延遲驚豔全網

相關推薦

全新音頻評測工具 UltraEval-Audio 上線，助力音頻模型研發！

清華與 OpenBMB 聯合推出 UltraEval-Audio：音頻模型評測新框架開源發佈

InstantX圖像生成黑科技！可精確控制 FLUX 生成圖片時每個區域的內容

谷歌在沙特阿拉伯開設人工智能中心，支持石油和天然氣生產

超快速文本轉語音模型Lightning：超低延遲， 100毫秒生成10秒音頻