智源研究院發佈了全球最大的中英文語義向量模型訓練數據集 MTP,數據規模達 3 億對。該數據集包含來自不同來源的中英文文本對,爲訓練中英文語義向量模型提供了重要基礎。智源研究院表示,數據對大模型訓練起着至關重要的作用,並將推動人工智能協同創新。該數據集的發佈有望解決中文模型訓練數據集缺乏的問題。