在人工智能技術快速發展的今天,阿里巴巴於6月6日正式開源了其全新的千問3向量模型系列 ——Qwen3-Embedding。該模型是基於千問3底座,爲文本表徵、檢索和排序等任務進行優化,標誌着阿里在 AI 領域的又一重大突破。
相較於前一版本,Qwen3-Embedding 在文本檢索、聚類和分類等核心任務上的性能提升了超過40%。這一進步不僅讓它在技術上更具競爭力,還使得它在 MTEB 等專業榜單中,超越了谷歌的 Gemini Embedding、OpenAI 的 text-embedding-3-large 以及微軟的 multilingual-e5-large-instruct 等頂尖模型,獲得了同類模型的最佳性能(SOTA)。
圖源備註:圖片由AI生成
簡單來說,向量模型可以看作是 AI 的 “翻譯器”,它通過將文本和圖片等非結構化信息轉換爲機器易於理解的向量,從而實現高效的信息分類、檢索和排序。基於千問3模型,通義團隊採用對比訓練、SFT 和模型融合等多種方法,成功打造出這一新型向量模型,涵蓋了文本嵌入模型 Qwen3-Embedding 及文本排序模型 Qwen3-Reranker。
值得一提的是,千問3向量模型具有強大的多語言能力,支持超過100種語言,包括多種編程語言,展現出卓越的多語言、跨語言及代碼檢索能力。這爲全球開發者提供了更爲廣闊的應用空間。
此次開源的千問3向量模型共有9款,涵蓋不同尺寸(0.6B、4B、8B 等)及 GGUF 版本,開發者可以根據需求選擇合適的模型,並自由組合模塊,甚至可以自定義向量或指令,以實現特定任務、語言和場景的深度優化。這一靈活性將極大提升開發者的工作效率。
目前,千問3Embedding 和 Reranker 模型已經在魔搭社區、Hugging Face 和 GitHub 等多個平臺上開源,開發者還可以通過阿里雲百鍊直接使用 API 服務。自4月29日開源以來,千問3大模型在多個國際榜單中取得了開源冠軍的好成績。