今日,中國政府網轉發了《人民日報》援引國家數據局的文章,正式在官方語境下將大模型基礎計量單位“Token”定名爲“詞元”。 報道披露,我國人工智能行業日均詞元調用量已突破140萬億次。這一權威定名不僅終結了長期以來學術界與產業界關於Token中文譯名的爭議,也標誌着大模型技術標準語境在國家層面的進一步規範化。

此前,針對Token的命名,行業內曾出現多種競爭性方案。騰訊研究院學者楊斌提出的“模元”一度引發廣泛討論,隨後由百川智能創始人王小川、潞晨科技創始人尤洋及原清華大學副教授胡翌霖等專家力薦的“智元”方案,因強調Token作爲“通用智能”而非單純“通用計算”單位的特性,在社交平臺獲得了極高的聲量。
然而,官方最終採用的“詞元”更側重於技術底層邏輯。據官方解釋,詞元是AI理解人類語言的最小單位,其切分粒度介於字與詞之間,能夠更精準地覆蓋大模型處理文本時的語義切片。隨着調用量規模邁向140萬億的歷史性關口,統一的術語規範將有助於降低行業溝通成本,爲後續AI基礎設施的統計量化與政策制定夯實基礎。
