正文

GPT-4圖形推理任務準確率僅33%，引發關注

發布於AI新閒資訊

時間 :Nov 21, 2023

閱讀 :1分鐘

最新研究顯示，GPT-4在圖形推理任務上僅有33%準確率，引發了對其圖形處理能力的關注。研究者使用ConceptARC數據集測試，結果顯示人類在同一任務上的平均準確率爲91%，遠高於GPT-4。研究方法引發質疑，包括受試者招募和輸入方式，突顯大型語言模型在某些任務上的侷限性，呼籲深入審視研究方法。

OpenAI 心理安全負責人離職:跳槽對手 Anthropic，繼續死磕 AI 倫理難題

OpenAI心理健康安全研究負責人安德莉亞·瓦隆內離職，加入競爭對手Anthropic的對齊團隊，向此前離職的Jan Leike彙報。她曾主導GPT-4和GPT-5模型安全政策，其研究領域涉及AI情感依賴等爭議問題。

日本數據科學家本田崇人推出開源編程語言“Sui”，旨在解決大語言模型生成代碼的準確性問題，宣稱可實現100%準確率。其設計理念源於日本美學“粋”，強調精煉與去除冗餘，核心原則包括保證零語法錯誤率，並使用數字作爲變量。

南洋理工大學推出首個全面評測大型語言模型處理電子病歷能力的基準EHRStruct，涵蓋11項核心任務、2200個樣本，旨在評估模型在醫療數據理解、信息提取等方面的表現，推動醫療AI發展。

MIT研究團隊開發出實例自適應縮放技術，可根據問題複雜度動態調整大型語言模型的計算資源，提升效率並降低能耗。該研究獲多家機構支持，相關論文已於11月初發布。

OpenAI推出“懺悔”框架，訓練AI模型主動承認不當行爲或問題決策，旨在解決大語言模型因追求“符合預期”而可能產生虛假陳述的問題。該框架引導模型在給出主要答案後進行二次迴應，詳細說明其推理過程。

智啟未來，您的人工智能解決方案智庫