最近清华大学的研究团队针对提升LLM智能体能力的问题,提出了AgentTuning方法。该方法包含构建AgentInstruct智能体数据集和采用混合指令微调策略。作者利用AgentTuning对Llama 2系列进行微调,得到AgentLM。结果表明,AgentLM相比Llama 2在多种智能体任务上取得明显提升,70B版本在许多任务上甚至超过GPT-4,提供了开源的强大替代方案。该研究为LLM在智能体任务领域发展提供了新的思路,也为未来实现更智能化的智能体系统奠定了基础。
相关推荐
AI 模型用两本书生成名家风格作品,引发版权法新讨论
AI仅用两本书微调即可模仿名家写作风格,读者评价甚至超越专业模仿者。研究涉及50位知名作家,包括韩江和鲁西迪。159名参与者(含28名专家)通过Prolific平台评判,结果显示AI生成作品更受青睐。
OpenAI 被指 “暗箱操作”,付费用户遭遇模型降级
OpenAI近日因秘密切换模型引发争议。付费用户反映,在未获通知的情况下,其GPT-4/5被自动替换为低算力过滤模型gpt-5-chat-safety和gpt-5-a-t-mini,尤其在涉及敏感内容时响应质量骤降。此举遭用户质疑侵犯选择权与知情权,凸显平台透明度不足的问题。
AI 逆袭:大型语言模型助力癌症新药研发,竟然能 “发明” 疗法!
近日,一项来自剑桥大学等机构的研究成果引发了广泛关注:大型语言模型(LLMs)不仅在自然语言处理领域崭露头角,还能为癌症治疗带来新的希望。研究人员利用 GPT-4模型,首次尝试将其作为科学假说的生成工具,在乳腺癌的药物研发上取得了令人振奋的进展。在这项研究中,团队的目标是找到能够有效对抗乳腺癌的新药物组合。他们从 FDA 批准的非抗癌药物中筛选出可能具有协同作用的药物,设定了三项关键原则:避免标准抗癌药物,专注于能够靶向癌细胞且不损伤健康细胞的药物,同
AI聊天越久越"糊涂":微软研究揭示语言模型可靠性骤降39%
微软和Salesforce联合研究发现,即使是最先进的AI语言模型在长时间对话中也会出现严重的可靠性问题。当用户逐步表达需求时,系统性能平均下降39%,这一发现对AI助手的实际应用提出了重要警示。模拟真实交互揭示性能缺陷研究团队创建了名为"分片"的测试方法,模拟用户在实际对话中逐步明确需求的过程。与传统的一次性提供完整信息不同,这种方法将任务分解为多个步骤,更贴近真实使用场景。测试结果令人震惊:AI模型的准确率从约90%暴跌至仅51%。从小型开源模型Llama-3.1-8B到大型商业
OpenAI宣布GPT-4退役,AI浪潮进入新篇章
人工智能领域的技术迭代速度令人惊叹。近日,OpenAI正式宣布,其标志性模型GPT-4将于2025年4月30日从ChatGPT中全面退役,被更先进的GPT-4o取代。这一消息引发了业界和创作者的广泛讨论,标志着AI大模型时代又一次里程碑式的转折。AIbase通过整理社交媒体上的最新动态,深入剖析GPT-4退役的意义及其对行业的深远影响。GPT-4的辉煌:掀起全球AI热潮自2023年3月14日发布以来,GPT-4以其强大的语言理解和生成能力迅速席卷全球。作为OpenAI的里程碑式产品,GPT-4不仅推动了ChatGPT的普及,还为教育、编程
