字節跳動聯合北京大學的研究團隊在arXiv發表論文,介紹了他們用於訓練大語言模型的生產系統MegaScale。MegaScale搭建了超過10000塊GPU的單一集羣,實現了55.2%的模型FLOP利用率。該系統還包含一套診斷工具用於監控系統組件和事件,找出根本原因,並實現容錯和緩解滯後問題。