計算機科學家對幾個大型語言模型在 StackOverflow 的 Java 編碼問題上的回答進行了評估,結果發現這些模型的代碼質量仍然不盡如人意。研究人員收集了 1208 個 StackOverflow 上的 Java 編碼問題,這些問題涉及 24 個常見的 Java API。然後他們用 4 個可生成代碼的大型語言模型進行了回答,並根據自己開發的 API 檢查器 RobustAPI 對回答進行評估。結果顯示,GPT-3.5 和 GPT-4 的 API 誤用率分別達到 49.83% 和 62.09%。研究認爲,大型語言模型代碼生成能力的提升與代碼可靠性和穩健性之間存在明顯差距,仍有改進的空間。