騰訊發佈 Youtu-Embedding:助力企業級智能服務

近日，騰訊優圖實驗室正式開源了一款名爲 Youtu-Embedding 的文本表示模型，旨在提升企業級智能客服和知識庫管理等領域的效率。該模型通過精確提取信息，避免了大模型在特定領域中的誤導性生成問題。這一問題常常出現在企業級應用中，尤其是當用戶詢問特定問題時，模型可能會根據通用語料生成不相關的答案。

Youtu-Embedding 能夠有效應對模型在不同領域表現不佳的現象。模型在通用語料上訓練良好，但在法律、醫療等專業領域的應用效果卻可能大打折扣。騰訊針對這一痛點，從零開始訓練該模型，利用了高達3萬億 Token 的中英文語料，爲模型的語言理解能力奠定了堅實基礎。此外，騰訊還提供了豐富的人工標註數據，確保模型在真實業務場景中的適用性。

爲了讓模型更好地理解用戶的真實意圖，騰訊引入了大規模弱監督訓練。通過這種訓練方式，Youtu-Embedding 能夠識別不同表述但相似意圖的句子，進而在語義空間中建立準確的映射關係。比如，用戶詢問 “這款產品保修多久?” 和 “壞了可以免費修嗎?” 兩個問題，雖然表達方式不同，但都在問保修政策。

在多任務訓練方面，騰訊設計了一套創新的微調框架，確保模型能夠適應不同的任務需求。模型採用統一的數據格式和差異化的損失函數，能夠有效提升文本相似度、檢索和分類等任務的能力。同時，動態採樣機制讓模型在訓練過程中合理分配精力，從而在各類任務中均衡發展。

Youtu-Embedding 已經在中文語義評測基準 CMTEB 上取得了77.46的高分，成爲表現最優秀的中文語義模型之一。這款模型適用於多種應用場景，包括智能問答、內容推薦和知識管理等，特別是在構建檢索增強生成系統（RAG）中顯示出極大的潛力。

騰訊優圖實驗室持續致力於開源技術的發展，除了 Youtu-Embedding 之外，還推出了 Youtu-Agent 和 Youtu-GraphRAG 等項目，爲開發者提供了更多的工具和資源，以促進 AI 應用的快速發展。

項目：https://github.com/TencentCloudADP/youtu-embedding

劃重點:
🌟 Youtu-Embedding 是騰訊開源的文本表示模型，旨在提高企業智能客服和知識庫管理的效率。
🔍 該模型通過大規模弱監督訓練和多任務協同進化，增強了對用戶意圖的理解。
📈 在中文語義評測基準 CMTEB 上，Youtu-Embedding 獲得了77.46的高分，顯示出其強大的性能和應用潛力。

騰訊智能體大升級！全新開發平臺助力企業輕鬆構建 AI 應用

在2025騰訊全球數字生態大會上，騰訊雲發佈智能體開發平臺3.0（ADP3.0）並開源優圖實驗室核心技術，旨在爲開發者提供更多資源，推動智能體技術普及。騰訊雲副總裁吳運聲強調，雲服務競爭已從基礎設施轉向智能體能力，ADP3.0的推出意在強化騰訊雲的智能服務優勢，吸引更多客戶。

騰訊推首個開源多模態大語言模型VITA 可與用戶進行無障礙溝通

騰訊優圖實驗室等機構發佈首個開源多模態大語言模型VITA，旨在填補大型語言模型在處理中文方言的空白。VITA基於Mixtral8×7B模型，擴展了中文詞彙量，進行雙語指令微調，精通英語與中文。其關鍵特點包括： 1. **多模態理解**：VITA能處理視頻、圖像、文本和音頻，爲開源模型中前所未見。 2. **自然交互**：無需特定喚醒詞，可即時響應，保持禮貌不干擾。 3. **開源先鋒**：推動多模態理解和交互領域的研究進展。 VITA通過雙重模型部署實現精準、及時的交互，不僅能聊天，還能作爲健身夥伴、旅遊顧問，根據輸入內容回答問題。在情感語音合成和多模態支持上，VITA正持續優化，目標是生成高質量音頻和視頻內容。VITA的開源發佈，標誌着智能交互方式的革新，未來將提供更智能、更人性化的體驗。

騰訊發佈 Youtu-Embedding:助力企業級智能服務

相關推薦

AI變身“神導演”：浙大推出沉浸式角色扮演框架，讓交互告別“機器人感”

騰訊智能體大升級！全新開發平臺助力企業輕鬆構建 AI 應用

Youtu-Agent 智能體框架正式開源，引領 AI 發展新潮流

騰訊優圖實驗室開源智能體框架Youtu-Agent

騰訊推首個開源多模態大語言模型VITA 可與用戶進行無障礙溝通