
通义千问实验室近日发布的多模态大模型Qwen3-VL在全球AI开源社区获得广泛认可。该模型在Chatbot Arena子榜单Vision Arena中排名第二,成为视觉理解领域的全球开源冠军。
同时,Qwen3-VL在纯文本赛道(Text Arena)也获得开源第一,全球排名第八,成为首个在纯文本和视觉两大领域同时获得开源第一的大模型。此外,该模型在OpenRouter图像处理榜单上以48%的市场份额跃升至全球第一。
Qwen3-VL-Flash作为Qwen3系列的小尺寸视觉理解模型,实现了思考模式和非思考模式的有效融合,效果优于开源版Qwen3-VL-30B-A3B,响应速度更快。该模型全面升级了图像和视频理解能力,支持长视频、长文档等超长上下文,具备空间感知与万物识别功能。
模型评测显示,Qwen3-VL-Flash的效果超过上一代qwen2.5-vl-72b。该模型还具备视觉2D和3D定位能力,能够胜任复杂的现实任务。
Qwen3-VL发布后受到社区的广泛好评,官方最近推出了CookBook指南。这些指南围绕真实场景设计,覆盖高精度文档解析、多语言自然场景OCR、长视频理解、3D物体定位、空间关系推理,以及面向移动端和计算机操作的智能体控制等核心能力。
CookBook指南全面展现了Qwen3-VL在复杂视觉语言任务中的强大表现。官方欢迎用户试用、反馈,并共同拓展多模态大模型的应用边界。
来源:通义千问

