未來已來!阿里新語音技術CosyVoice讓AI說話更有人味兒

近日，阿里巴巴推出的最新語音合成模型CosyVoice，以其令人驚歎的逼真度和靈活性，爲我們展示了未來人機交互的美好藍圖。

這個模型不僅能生成符合特定性別、年齡和個性的聲音，還能模擬人類說話時的自然特徵，如笑聲、咳嗽和呼吸。更令人興奮的是，它甚至可以爲生成的聲音添加情感和風格，使AI的表達更加豐富多彩。

QQ截圖20240802094237.jpg

但CosyVoice只是阿里巴巴在語音技術領域的冰山一角。它與另一個名爲SenseVoice的模型一起，構成了名爲FunAudioLLM的強大框架。這個框架旨在全面提升人類與大型語言模型（LLMs）之間的語音交互體驗。SenseVoice負責高精度的多語言語音識別、情感識別和音頻事件檢測，支持超過50種語言，反應速度快得驚人。

FunAudioLLM的應用前景令人期待。想象一下，你可以輕鬆實現實時的語音翻譯，與使用不同語言的人自如交流。或者，你可以體驗一場充滿情感的AI語音聊天，AI會根據你的情緒狀態做出恰當的迴應。對於愛好文學的人來說，這項技術還能創造出富有表現力的有聲書，讓聽書體驗更加身臨其境。

具體來說，FunAudioLLM的語音到語音翻譯功能堪稱神奇。當你說出一句話時，SenseVoice會迅速識別你的語音，然後通過大型語言模型進行處理，最後由CosyVoice以另一種語言的形式說出來。這一過程快速而準確，讓跨語言交流變得前所未有的順暢。

在情感交互方面，FunAudioLLM的表現同樣出色。它不僅能理解用戶的情緒狀態，還能生成相應的情感化語音迴應。這種功能在心理諮詢、在線教育等需要情感互動的場景中，將發揮巨大作用，爲用戶提供更加人性化、溫暖的體驗。

對於文學愛好者來說，FunAudioLLM帶來的有聲書製作技術無疑是一大福音。通過分析書中的情感，CosyVoice能夠提供更加生動、富有感情的朗讀，讓聽衆彷彿置身於故事之中，深刻體會作者想要傳達的情感。

阿里巴巴的這項技術突破，不僅展示了中國在AI領域的創新能力，更預示着人機交互即將迎來一個全新的時代。在不久的將來，我們與AI的對話可能會變得如此自然，以至於難以區分它是否是真實的人類。這種技術的發展，無疑將爲教育、娛樂、客戶服務等多個領域帶來革命性的變化，讓我們的生活變得更加便利、豐富多彩。

隨着技術的不斷進步，我們有理由相信，未來的AI不僅能聽懂我們的話，還能真正理解我們的情感，成爲我們生活中不可或缺的智能夥伴。阿里巴巴的CosyVoice和FunAudioLLM框架，無疑爲這個美好的未來鋪平了道路。讓我們共同期待，在不久的將來，與AI的交互會變得如此自然和愉快，猶如與老朋友聊天一般輕鬆愉快。

項目地址：https://top.aibase.com/tool/cosyvoice

阿里通義實驗室語音生成大模型CosyVoice升級2.0版本

阿里巴巴通義實驗室語音團隊宣佈，其開源的語音生成大模型CosyVoice已升級至2.0版本，這一升級標誌着語音生成技術在準確性、穩定性和自然體驗方面的顯著進步。CosyVoice2.0通過採用離線和流式一體化建模的語音生成大模型技術，實現了雙向流式語音合成，首包合成延遲可達到150ms，顯著提升了語音合成的響應速度。

Stability AI推新AI模型Stable Fast 3D：半秒內生成3D圖像速度提升1200倍

Stability AI宣佈了一項名爲Stable Fast3D的新型生成式AI技術，該技術能夠從單張圖像快速生成3D圖像，處理速度相比以往提高1200倍，僅需半秒。Stable Fast3D基於Stability AI與3D建模供應商Trip AI的合作，通過使用增強的transformer網絡和創新的材料及照明估計方法，實現高效處理大分辨率，減少混疊僞影，同時捕獲精細細節。這項技術在設計、建築、零售、虛擬現實和遊戲開發等領域具有廣泛的應用前景。Stability AI通過Stable Assistant聊天機器人、Stability AI API以及社區許可證Hugging Face提供模型使用途徑。Stability AI不僅在圖像生成領域取得了顯著進展，還不斷擴展其技術範圍，從2D到4D，持續引領圖像生成技術的發展。

Chrome桌面版煥新升級：Gemini AI助力，開啓智能瀏覽新體驗

Google爲Chrome桌面版引入由Gemini AI驅動的創新功能，包括Google Lens、Tab Compare和AI驅動的歷史搜索。Lens允許用戶通過點擊頁面內容提問獲取搜索結果，Tab Compare幫助用戶在購物時比較不同標籤頁上的商品信息。AI驅動的歷史搜索功能使用戶能通過自然語言查詢搜索過往瀏覽歷史，無需訪問具體頁面。這些功能的推出旨在提升用戶的瀏覽體驗，通過AI技術增強信息獲取的便利性和個性化。

Ampere 宣佈推出用於 AI 計算的512核處理器 Aurora

Ampere 公司宣佈了其產品路線圖的重大更新，發佈旗艦處理器 Aurora，主打 AI 加速與高帶寬內存集成，旨在大幅提升雲原生 AI 計算性能。Aurora 搭載 512 個 Ampere 核心，性能較現有處理器提高三倍以上，專門針對 AI 訓練和推理工作負載設計，顯示 Ampere 在 AI 計算領域的雄心。Aurora 採用可擴展的 AmpereOne Mesh 架構，集成 Ampere AI IP 和高帶寬內存，具備處理複雜 AI 工作負載的強大性能和靈活性。此發佈使 Ampere 成爲高核數處理器市場的競爭者，與 AMD 和英特爾等巨頭競爭。Ampere 還透露了其產品線的其他更新，包括即將推出的 AmpereOne M 系列，引入 12 通道 DDR5 平臺，到 2025 年計劃將內核數量增加到 256 個，進一步提升處理器性能。

Suno聲稱用受版權保護的音樂進行訓練模型是“合理使用”

美國唱片業協會（RIAA）對音樂生成初創公司Udio和Suno提起訴訟，指控其使用版權保護音樂訓練AI模型。Suno承認使用了受版權保護的歌曲進行訓練，並聲稱這是合理使用。然而，RIAA認爲這些行爲不符合合理使用原則，且對藝術家的生計構成威脅。此案件的判決可能爲AI音樂訓練領域設定重要先例，影響相關公司的未來和行業規範。