AR 眼镜刚问“对面是什么楼”,后端的 MLLM-SC 框架就在 10 ms 内画出一张“语义注意力热图”:建筑轮廓被标成深红,优先级调到最高,其他背景一律降码率。高维多模态数据不再“平均用力”,任务相关的像素、语音、坐标被语义引擎拎出来走“快车道”,无关内容自动降档,6G 空口瞬间多出 30 % 可用带宽。


这套“设备—边缘”协同系统把多模态大模型塞进边缘服务器,当用户输入图像+语音+任务请求时,提示工程+上下文学习先拆意图,再驱动双路径语义编码器——重要特征走高质量路径,次要信息进低分辨率通道;即便信道突然掉档,关键区域依旧 1080 P 保真。接收端用 VAE 做粗重建、条件扩散模型做精修,还能按终端算力动态切换“高清重建”或“AI 补帧”模式,弱网环境也能实时合成高质量全息画面。


实验室实测里,AR 导航、沉浸式会议、车联网三维地图同时跑在 500 MHz 毫米波小区:采用 MLLM-SC 后,平均端到端时延从 28 ms 降到 18 ms,块错误率下降 42 %。团队下一步把强化学习塞进语义决策,让多智能体在协同驾驶、城市级元宇宙等场景中“边通信边策略优化”,目标是把 6G 的“体验密度”再提升一个量级。