近日,騰訊優圖實驗室正式開源了一款名爲 Youtu-Embedding 的文本表示模型,旨在提升企業級智能客服和知識庫管理等領域的效率。該模型通過精確提取信息,避免了大模型在特定領域中的誤導性生成問題。這一問題常常出現在企業級應用中,尤其是當用戶詢問特定問題時,模型可能會根據通用語料生成不相關的答案。

image.png

Youtu-Embedding 能夠有效應對模型在不同領域表現不佳的現象。模型在通用語料上訓練良好,但在法律、醫療等專業領域的應用效果卻可能大打折扣。騰訊針對這一痛點,從零開始訓練該模型,利用了高達3萬億 Token 的中英文語料,爲模型的語言理解能力奠定了堅實基礎。此外,騰訊還提供了豐富的人工標註數據,確保模型在真實業務場景中的適用性。

爲了讓模型更好地理解用戶的真實意圖,騰訊引入了大規模弱監督訓練。通過這種訓練方式,Youtu-Embedding 能夠識別不同表述但相似意圖的句子,進而在語義空間中建立準確的映射關係。比如,用戶詢問 “這款產品保修多久?” 和 “壞了可以免費修嗎?” 兩個問題,雖然表達方式不同,但都在問保修政策。

在多任務訓練方面,騰訊設計了一套創新的微調框架,確保模型能夠適應不同的任務需求。模型採用統一的數據格式和差異化的損失函數,能夠有效提升文本相似度、檢索和分類等任務的能力。同時,動態採樣機制讓模型在訓練過程中合理分配精力,從而在各類任務中均衡發展。

Youtu-Embedding 已經在中文語義評測基準 CMTEB 上取得了77.46的高分,成爲表現最優秀的中文語義模型之一。這款模型適用於多種應用場景,包括智能問答、內容推薦和知識管理等,特別是在構建檢索增強生成系統(RAG)中顯示出極大的潛力。

騰訊優圖實驗室持續致力於開源技術的發展,除了 Youtu-Embedding 之外,還推出了 Youtu-Agent 和 Youtu-GraphRAG 等項目,爲開發者提供了更多的工具和資源,以促進 AI 應用的快速發展。

項目:https://github.com/TencentCloudADP/youtu-embedding

劃重點:  

🌟 Youtu-Embedding 是騰訊開源的文本表示模型,旨在提高企業智能客服和知識庫管理的效率。  

🔍 該模型通過大規模弱監督訓練和多任務協同進化,增強了對用戶意圖的理解。  

📈 在中文語義評測基準 CMTEB 上,Youtu-Embedding 獲得了77.46的高分,顯示出其強大的性能和應用潛力。