隨着 GPT-4 的發佈,多模態大模型(MLLM)成爲熱點。馬毅團隊提出了 EMT 框架,評估微調後的 MLLM 的災難性遺忘。實驗發現,微調 MLLM 在提升微調數據集性能的同時,也導致其他數據集性能下降。微調過程中,MLLM 會產生與微調數據集相關的幻覺文本,忽略原始問題。研究爲後續工作提供了框架和基準,模型設計和訓練技巧仍需進一步優化。馬毅團隊首次系統評估了 MLLM 中的災難性遺忘問題,平衡不同能力之間的權衡。