阿里通义全新Qwen3-VL模型开源，超越GPT-5 Nano视觉文本双突破

VR三千世界 · 发表于 2025-10-15 19:35

本帖最后由八云红于 2025-10-15 20:59 编辑

人工智能领域的开源社区再次迎来重磅消息。正当行业目光聚焦于巨型模型的迭代时，阿里通义在高效能多模态领域持续发力。今日，阿里通义正式宣布，旗下的多模态视觉理解模型系列Qwen3-VL再添两位新成员——Qwen3-VL-4B与Qwen3-VL-8B模型，并已全面开源上线，为开发者和研究者提供了新的强大工具。

性能越级：小模型媲美大尺寸

此次开源的Qwen3-VL-4B和Qwen3-VL-8B是基于密集（Dense）架构的视觉理解模型，其显著特点是显存占用更低，同时完整继承了Qwen3-VL系列的全部能力。每个尺寸都提供了Instruct（指令微调）和Thinking（思维链）两大版本，以适应不同应用场景的需求。

性能方面，Qwen3-VL-8B的表现尤为亮眼。根据官方公布的评测数据，该模型在STEM（科学、技术、工程和数学）、VQA（视觉问答）、OCR（光学字符识别）、视频理解以及Agent任务等多个公开基准测试中表现优异。其性能不仅超越了Gemini 2.5 Flash Lite和AI.com/ai/2962.html" target="_blank" class="relatedlink">GPT-5 Nano等同量级的前沿模型，甚至可以媲美阿里上一代的超大尺寸模型Qwen2.5-VL-72B，实现了惊人的性能越级。

而Qwen3-VL-4B版本则主打端侧性价比，更适合在需要AI视觉理解能力的智能终端上进行部署，为移动设备和边缘计算场景带来了新的可能性。

技术突破：解决“跷跷板”难题

更值得关注的是，这两款全新的Qwen3-VL模型实现了“视觉精准”与“文本稳健”的协同突破。在小模型开发中，普遍存在一个“跷跷板”问题：即提升模型的视觉能力往往会以牺牲文本性能为代价，反之亦然。

阿里通义团队通过架构创新和技术优化，成功解决了这一难题。使得新模型能够在保持强大文本理解能力的基础上，显著增强多模态感知与视觉理解能力，真正做到了在“小身板”里塞进了更强的综合实力。

目前，全新的Qwen3-VL-4B和Qwen3-VL-8B模型及其FP8量化版本，均已上线魔搭社区（ModelScope）和Hugging Face，面向全球开发者开放。

菲菲小能手 · 发表于 2025-12-5 17:49

到底能不能超越呢

› 综合交流 / 资源分享区 › AI技术讨论

阿里通义全新Qwen3-VL模型开源，超越GPT-5 Nano视觉文本 ...

阿里通义全新Qwen3-VL模型开源，超越GPT-5 Nano视觉文本双突破

浏览过的版块

站长推荐 /1