百度发布ERNIE 5.0：2.4万亿参数统一多模态基础模型

百度推出ERNIE 5.0，这是一个拥有2.4万亿参数的统一多模态基础模型，通过自回归框架整合文本、图像、视频和音频，旨在解决现有模型理解与生成脱节的问题。

当前多数多模态模型在理解方面表现出色，但输出仍以文本为中心，多模态生成通常依赖后期融合架构，将专用解码器拼接至预训练语言主干上。这种拼凑方法虽能工作，却导致理解与生成脱节，限制了跨模态推理的深度。

ERNIE 5.0引入范式转变，它是一个从头训练的统一多模态模型，在单一自回归框架内整合文本、图像、视频和音频。这种统一方法使模型能学习模态间的内在语义对齐，而非表面翻译。

训练一个2.4万亿参数的多模态模型面临显著计算挑战，百度通过两项核心技术创新应对：采用混合专家架构，并引入模态无关路由。

来源：百度 ERNIE

相关新闻