字節發佈創新圖像合成技術XVerse：對多個個體進行獨立且精確的控制

近日，字節正式發佈其最新圖像合成技術 ——XVerse，旨在提供高精度的多主體圖像生成解決方案。這項創新的技術使得用戶能夠對多個個體進行獨立且精確的控制，極大地提升了個性化和複雜場景生成的能力。

XVerse 的核心在於其獨特的 DiT 調製方法，能夠在不影響整體圖像潛在特徵的情況下，對每個主體的身份和語義屬性進行調控。通過將參考圖像轉化爲特定於令牌的文本流偏移量，XVerse 使得圖像合成更加靈活和直觀，用戶只需簡單的文字描述，即可生成符合預期的高保真圖像。

在技術實現上，XVerse 要求用戶首先創建一個包含 Python3.10.16的 conda 環境，並安裝相應的依賴項。隨後，用戶需要下載相關的檢查點和人臉識別模型，以保證技術的順利運行。值得注意的是，XVerse 提供了一個互動的 Gradio 演示，用戶可以通過上傳圖像和輸入描述，實時生成圖像，並調節多個參數來優化生成效果。

XVerse 的用戶界面友好，提供了豐富的輸入設置選項，包括圖像描述、生成圖像的高度和寬度等，用戶可以靈活調整生成圖像的特徵。此外，用戶可以使用 “檢測與分割” 功能對上傳的圖像進行分析，自動裁剪人臉並生成相應的描述，從而提升生成的準確性和個性化。

總之，XVerse 作爲一項革命性的技術，展現了圖像合成的廣闊前景，預計將對數字內容創作、廣告以及藝術等多個領域產生深遠影響。隨着未來版本的發佈，XVerse 有望成爲業界標準，助力更多創意的實現。

地址:https://github.com/bytedance/XVerse

TEN VAD震撼開源：企業級語音檢測神器，打造超智能AI語音助手！

近日，TEN Agent團隊宣佈將其企業級實時語音活動檢測器（TEN VAD）正式開源，這一突破性舉措引發行業熱議。TEN VAD以幀級精度的語音檢測能力和優於WebRTC VAD及Silero VAD的性能表現，成爲構建實時對話語音助手的強力引擎。TEN VAD:幀級精度的企業級語音檢測TEN VAD是一款基於深度學習的輕量級、低延遲語音活動檢測（VAD）模型，專爲企業級應用設計。它能夠精確識別音頻幀中的人類語音，過濾背景噪音、沉默等非語音內容。相較於業界常用的WebRTC VAD和Silero VAD，TEN VAD在多樣化場景測試中展現出更

Chai-2震撼發佈：AI驅動零樣本抗體設計，藥物研發提速百倍

人工智能在藥物研發領域再掀波瀾!Chai Discovery近日推出全新AI模型Chai-2，以其在分子設計領域的突破性技術引發廣泛關注。Chai-2實現了零樣本抗體設計，成功率高達16%-20%，較傳統方法提升超百倍，藥物研發週期從數月甚至數年縮短至僅兩週。零樣本抗體設計，突破傳統瓶頸Chai-2是Chai Discovery開發的多模態生成式AI模型，專注於分子結構的預測與設計。相較於傳統抗體發現方法，如動物免疫或高通量篩選，Chai-2無需依賴現有抗體模板或大規模實驗篩選，僅通過目標抗原和表位信息即可從零設計

TEN Agent開源TEN VAD與Turn Detection，助力語音AI超低延遲

TEN Agent團隊近日宣佈，其核心模型**TEN Voice Activity Detection （VAD）**和**TEN Turn Detection**正式開源，爲構建實時、多模態的語音AI代理提供了強大的技術支持。這一舉措標誌着TEN框架在推動語音交互技術民主化與開源協作方面的重大進展。以下是AIbase整理的最新資訊，深入解析這兩大核心模型的功能、優勢及對行業的潛在影響。TEN VAD:低延遲高性能的語音活動檢測TEN VAD是一款專爲企業級應用設計的實時語音活動檢測器，以低延遲、輕量化和高性能著稱。根據官方信息及社交媒體反饋，TEN VAD能夠

Qwen-TTS重磅發佈：方言語音合成新突破，真實感媲美真人

昨日，阿里巴巴通義團隊正式推出了Qwen-TTS模型，這款文本轉語音（TTS）模型以其超高真實感和多方言支持引發行業熱議。AIbase編輯團隊整理最新信息，爲您深入解析這款通過Qwen API提供服務的語音合成利器，及其在AI語音技術領域的突破性意義。Qwen-TTS:超真實語音合成Qwen-TTS是通義團隊基於大規模語音數據集研發的最新文本轉語音模型，通過數百萬小時的語音訓練，生成的聲音在自然度、韻律、節奏和情感表達上達到了極高水平。用戶通過Qwen API即可體驗到接近真人發聲的語音效果，適用於

Cursor發佈Web版，AI編碼工具擴展至瀏覽器與移動端