
当前多数多模态模型在理解方面表现出色,但输出仍以文本为中心,多模态生成通常依赖后期融合架构,将专用解码器拼接至预训练语言主干上。这种拼凑方法虽能工作,却导致理解与生成脱节,限制了跨模态推理的深度。

ERNIE 5.0引入范式转变,它是一个从头训练的统一多模态模型,在单一自回归框架内整合文本、图像、视频和音频。这种统一方法使模型能学习模态间的内在语义对齐,而非表面翻译。
训练一个2.4万亿参数的多模态模型面临显著计算挑战,百度通过两项核心技术创新应对:采用混合专家架构,并引入模态无关路由。
来源:百度 ERNIE

