NASA 的跨機構實施和先進概念團隊(IMPACT)通過與私營、非聯邦合作伙伴簽署太空法案協議,共同開發 INDUS,這是一套面向地球科學、生物和物理科學、日球物理學、行星科學以及天體物理學等領域的大型語言模型(LLM),並使用來自多樣化數據源的策劃科學文獻進行訓練。

image.png

INDUS 包含兩種類型的模型:編碼器和句子轉換器。編碼器將自然語言文本轉換爲數字編碼,可以由 LLM 處理。INDUS 編碼器在包含天體物理學、行星科學、地球科學、日球物理學、生物科學和物理科學數據的60億令牌語料庫上進行了訓練。IMPACT-IBM 合作團隊開發的自定義分詞器通過識別生物標誌物和磷酸化等科學術語,改進了通用分詞器。INDUS 中超過一半的5萬個詞彙是針對其培訓所使用的特定科學領域而獨有的。INDUS 編碼器模型被用於對約2.68億個文本對進行微調,其中包括標題 / 摘要和問題 / 答案。

通過爲 INDUS 提供領域特定的詞彙,IMPACT-IBM 團隊在生物醫學任務基準測試、科學問答基準測試和地球科學實體識別測試上,實現了比開放、非領域特定 LLM 更出色的表現。通過設計多樣化的語言任務和檢索增強生成,INDUS 能夠處理研究人員的問題、檢索相關文檔並生成答案。對於延遲敏感的應用,該團隊開發了更小、更快的編碼器和句子轉換器模型版本。

驗證測試表明,INDUS 在回答 NASA 約400個問題的測試集時,能夠從科學文獻中檢索出相關段落。IBM 研究員 Bishwaranjan Bhattacharjee 評論了整體方法,“我們通過不僅擁有自定義詞彙,還擁有大量專門的訓練編碼器模型和良好的訓練策略來實現了卓越的表現。對於更小、更快的版本,我們使用神經架構搜索來獲取模型架構,並使用更大的模型監督進行知識蒸餾進行訓練。”

劃重點:

- 🚀NASA 與 IBM 合作開發 INDUS 大型語言模型,適用於地球科學、生物和物理科學、日球物理學、行星科學和天體物理學等領域。

- 🎓INDUS 包含編碼器和句子轉換器兩種類型的模型,使用自定義分詞器和60億令牌語料庫進行訓練,並在約2.68億個文本對上進行微調。

- 💡INDUS 通過領域特定的詞彙和設計多樣化的語言任務和檢索增強生成,實現了比開放、非領域特定 LLM 更出色的表現,能夠處理研究人員的問題、檢索相關文檔並生成答案。