微軟對大語言模型的道德推理能力進行了測試,結果發現在電車問題中,尺寸較大的模型表現反而較差。然而,最強大的語言模型 GPT-4 的道德得分仍然是最高的。這一發現與研究人員最初的假設相反。