通义千问Qwen3-VL模型在多项全球评测中获开源冠军

通义千问实验室发布的Qwen3-VL多模态大模型在Chatbot Arena Vision Arena中位居第二，成为视觉理解领域全球开源冠军，并在纯文本赛道获开源第一。

通义千问实验室近日发布的多模态大模型Qwen3-VL在全球AI开源社区获得广泛认可。该模型在Chatbot Arena子榜单Vision Arena中排名第二，成为视觉理解领域的全球开源冠军。

同时，Qwen3-VL在纯文本赛道（Text Arena）也获得开源第一，全球排名第八，成为首个在纯文本和视觉两大领域同时获得开源第一的大模型。此外，该模型在OpenRouter图像处理榜单上以48%的市场份额跃升至全球第一。

Qwen3-VL-Flash作为Qwen3系列的小尺寸视觉理解模型，实现了思考模式和非思考模式的有效融合，效果优于开源版Qwen3-VL-30B-A3B，响应速度更快。该模型全面升级了图像和视频理解能力，支持长视频、长文档等超长上下文，具备空间感知与万物识别功能。

模型评测显示，Qwen3-VL-Flash的效果超过上一代qwen2.5-vl-72b。该模型还具备视觉2D和3D定位能力，能够胜任复杂的现实任务。

Qwen3-VL发布后受到社区的广泛好评，官方最近推出了CookBook指南。这些指南围绕真实场景设计，覆盖高精度文档解析、多语言自然场景OCR、长视频理解、3D物体定位、空间关系推理，以及面向移动端和计算机操作的智能体控制等核心能力。

CookBook指南全面展现了Qwen3-VL在复杂视觉语言任务中的强大表现。官方欢迎用户试用、反馈，并共同拓展多模态大模型的应用边界。

来源：通义千问

相关新闻