MiniMax發佈Voice Design音色設計功能可自定義無限組合

稀宇科技（MiniMax）宣佈其Speech-02語音模型在Artificial Analysis榜單中持續保持全球領先地位，並正式推出Voice Design音色設計功能。該功能允許用戶通過自然語言描述生成個性化音色，實現“任意語言 × 任意口音 × 任意音色”的全自定義組合，進一步降低語音合成領域的技術門檻。

據稀宇科技介紹，Voice Design功能可精準控制音色的多個維度，包括音頻質量、發聲方式、情感基調及人物畫像。用戶僅需輸入文本描述，模型即可自動拆解需求並生成對應的音色編碼。例如，用戶可描述“帶有積極鼓勵的AI助手，語調積極，韻律變化豐富”，或“嚴厲的AI助手，女聲，語速較快，音色明亮”，系統將生成符合要求的語音。

微信截圖_20250623093512.png

爲驗證功能效果，稀宇科技展示了多組音色示例:古代俠客的洪亮正直、懸疑故事播音員的低沉磁性、權威新聞女主播的清晰利落，以及充滿活力的推銷員語速等。這些示例展示了Voice Design在音色定製方面的靈活性，可滿足不同場景的語音需求。

稀宇科技指出，Voice Design的推出解決了語音合成領域的兩大挑戰:一是傳統音色庫難以匹配細分場景的多樣化需求，二是復刻音色存在版權風險且操作複雜。通過Voice Design，用戶無需準備高質量輸入素材，即可快速生成理想音色，並可存儲用於後續音頻創作。

目前，稀宇科技的兩代Speech模型已累計生成超過1.5億小時的語音，與全球超30個國家的客戶達成合作。此次Voice Design功能的上線，標誌着稀宇科技在語音技術領域的持續創新，並致力於爲全球用戶提供更便捷、高效的語音解決方案。

用戶可通過稀宇科技國內版平臺（minimaxi.com/audio）或海外版平臺(minimax.io/audio)體驗Voice Design功能，探索語音合成的無限可能。

Google Gemma團隊發佈Magenta RealTime：開源實時音樂生成模型引發關注

近日，Google Gemma團隊正式發佈了Magenta RealTime，一款專爲實時音樂生成設計的開源AI模型。這一突破性發布標誌着Google在AI音樂創作領域的又一重要進展，爲音樂創作者和開發者提供了全新的創作工具。以下內容綜合了來自AIbase及其他網絡資源的最新信息，展現了Magenta RT的核心特點及其潛在影響。Magenta RealTime：輕量高效的音樂生成利器Magenta RealTime是一款基於Transformer架構的音樂生成模型，參數規模爲 8 億，相較於其他大型模型顯得輕量而高效。據Google官方介紹，該模型基於Lyria RealTime技術，

突破 3D 環境生成瓶頸，EmbodiedGen 助力智能機器人研究

在當前身體現智能（Embodied AI）的發展過程中，創建真實且精確縮放的3D 環境至關重要。然而，現有的方法仍主要依賴於人工設計的3D 圖形，這不僅成本高昂，而且缺乏真實感，限制了其擴展性和通用性。爲了在物理環境中實現通用智能，必須進行真實的模擬、強化學習以及多樣化的3D 資產生成。儘管最近的擴散模型和3D 生成技術顯示出一定的潛力，但許多仍缺乏物理準確性、密閉幾何結構和正確的比例，使其不適合用於機器人訓練環境。當前3D 生成技術的侷限性3D 對象生成通常採用三種

OpenAI因商標戰下架Jony Ive合作！AI硬件夢想能否照進現實？

OpenAI因商標糾紛問題，從其官方網站的合作伙伴頁面中悄然刪除了與前蘋果設計大師Jony Ive的合作信息，包括相關宣傳視頻和博客內容。此舉源於一家名爲Iyo的初創公司提起的商標訴訟，涉及OpenAI在與Jony Ive合作中使用的“io”品牌名稱。儘管如此，OpenAI與Jony Ive的合作項目仍在推進，引發業界對AI硬件未來發展的廣泛關注。商標爭議始末:Iyo指控“io”品牌侵權據公開信息，OpenAI近期宣佈以65億美元收購Jony Ive的硬件初創公司IO Products，計劃打造以人爲本的AI消費硬件。然而，Iyo公司（一家源自

美國參議院通過 AI 監管暫禁令，州政府面臨新挑戰

美國參議院於近日通過了一項重要法案，該法案由共和黨提出，旨在禁止各州在未來十年內實施自己的人工智能（AI）監管措施。這一新規的核心在於，如果任何州嘗試執行 AI 監管，將面臨聯邦寬帶資金被撤回的風險。此舉引發了各州政府和相關利益方的廣泛關注。圖源備註：圖片由AI生成，圖片授權服務商Midjourney這項法案經過重新撰寫，由參議院商務委員會主席特德・克魯茲（Ted Cruz）主導，以確保符合預算規則。參議院議會專員也對這一修訂表示認可，認爲該條款不受所謂的拜德規則

Google Gemini 2.5 Flash-Lite炸裂登場！點擊瞬間生成UI，未來交互從此不同！

Google DeepMind推出全新Gemini2.5Flash-Lite模型，以其超低延遲和實時生成交互界面的能力引發業界熱議。這款模型不僅繼承了Gemini2.5系列的多模態和長上下文窗口特性，還展現了前所未有的UI設計創新潛力，被認爲是未來交互界面的雛形。以下是AIbase整理的最新資訊，帶您一探究竟。實時UI生成:從靜態到動態的飛躍Gemini2.5Flash-Lite的最大亮點在於其實時生成交互界面的能力。基於前一屏幕的上下文，模型能在用戶點擊按鈕的瞬間，自動生成下一屏幕的UI代碼和相關內容。這種動態生成技術顛覆了傳

MiniMax發佈Voice Design音色設計功能 可自定義無限組合