正文

马毅团队发现：微调多模态大模型会导致灾难性遗忘

发布于AI新闻资讯

发布时间 :2023年9月28号 10:30

阅读 :1分钟

随着 GPT-4 的发布，多模态大模型（MLLM）成为热点。马毅团队提出了 EMT 框架，评估微调后的 MLLM 的灾难性遗忘。实验发现，微调 MLLM 在提升微调数据集性能的同时，也导致其他数据集性能下降。微调过程中，MLLM 会产生与微调数据集相关的幻觉文本，忽略原始问题。研究为后续工作提供了框架和基准，模型设计和训练技巧仍需进一步优化。马毅团队首次系统评估了 MLLM 中的灾难性遗忘问题，平衡不同能力之间的权衡。

英伟达推出统一音频智能模型 Nemotron-Labs-Audex-30B-A3B

NVIDIA推出统一音频-文本大模型Audex，基于纯文本MoE架构，采用单一Transformer，解决多模态模型音频增强导致文本逻辑下降的难题，实现高效音频理解与文本能力的平衡。

2026年7月8号 10:13

216.5k

AI 视频赛道格局重塑：谷歌 Gemini Omni Flash 登顶盲测榜首

谷歌DeepMind的文生视频模型Gemini Omni Flash在权威盲测排行榜Video Arena中以1404Elo分跃居第一，彰显谷歌多模态技术实力，也印证视频生成领域正高速迭代。

2026年7月3号 15:45

281.1k

商汤科技秘密研发多模态模型“U1Pro”:由林达华牵头，预计7月启动内测对标OpenAI

商汤科技正秘密研发多模态大模型“U1Pro”，面向设计场景，由首席科学家林达华牵头。该模型隶属“日日新”家族，目标对标OpenAI的GPT-Image2，强调长程逻辑与思考能力，预计7月启动内测并商用。

2026年6月25号 17:23

185.5k

重磅开源！原生多模态 LongCat-Next 发布，让视觉和语音成为 AI 的“母语”

全球AI领域正经历“AI母语”技术变革。针对当前大模型“语言中心、外挂视觉或语音”的拼凑架构，团队发布并开源了原生多模态大模型LongCat-Next及离散分词器，旨在打破模态壁垒，让AI像处理文字一样理解物理世界。核心是通过重构底层架构实现突破。

2026年6月4号 15:48

364.4k

先理解再动手！字节开源统一框架 Bernini，让 AI 视频编辑告别“碰运气”

字节跳动开源视频生成与编辑统一框架Bernini，核心采用“先理解、再生成”的协同机制，解决传统模型因无法精准理解复杂文本指令导致的画面失控、帧间闪烁等痛点，突破主体变形、背景漂移等瓶颈。

2026年6月3号 13:41

282.0k

智启未来，您的人工智能解决方案智库