阿里通义开源发布全球首个端到端全模态AI模型Qwen3-Omni

VR三千世界 · 发表于 2025-9-23 10:00

9 月 23 日消息，阿里云正式发布并开源 Qwen3-Omni、Qwen3-TTS 和 Qwen-Image-Edit-2509。其中，Qwen3-Omni 被称为业界首个端到端全模态 AI 模型，具备处理文本、图像、音频和视频的能力，标志着多模态大模型进入全新阶段。

Qwen3-Omni：首个原生全模态 AI 开源模型

作为阿里云的核心亮点，Qwen3-Omni 具备以下特性：

跨模态顶级表现：结合文本预训练与混合多模态训练，保持文本和图像性能领先，同时大幅提升音频与视频能力。在 36 项音频/视频基准测试中，22 项达到最新水平，32 项在开源模型中处于领先。

多语言支持：覆盖 119 种文本语言、19 种语音输入语言、10 种语音输出语言，包括中文、英语、日语、韩语、德语、法语、西班牙语、俄语等。

创新架构：基于 MoE（专家混合）的“思考者–表达者”设计，结合 AuT 预训练和多码本架构，延迟更低。

实时音频/视频交互：支持低延迟流式对话，实现自然轮流发言和即时语音、文本响应。

精细音频描述：开源了 Qwen3-Omni-30B-A3B-Captioner，填补了开源社区音频描述领域的空白。

凭借这些能力，Qwen3-Omni 被认为在 ASR、语音对话、多模态理解等方面已能与 Gemini 2.5 Pro 对标。

Qwen3-TTS：多语言多音色文本转语音

与此同时，阿里云还发布了 Qwen3-TTS，支持 17 种音色和 10 种语言，不仅涵盖普通话、英语、日语、韩语、德语、俄语等，还覆盖闽南语、粤语、吴语、四川话等多种方言。

其升级版 Qwen3-TTS-Flash 在语音稳定性与音色相似度上超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs，成为新的开源 TTS 标杆。

Qwen-Image-Edit-2509：图像编辑一致性提升

在图像领域，阿里云同步推出了 Qwen-Image-Edit-2509。相较于 8 月版本，该模型在多图像与单图像一致性上均有明显提升：

多图像编辑：支持人像与人像、人像与产品、人像与场景的组合编辑；

人像一致性优化：更好保留面部身份，适应不同风格与姿势；

产品与文字编辑增强：不仅能修改文字，还能调整字体、颜色和材质；

原生支持 ControlNet：包括深度图、边缘图和关键点图。

随着阿里云持续迭代 Qwen 系列模型，未来 AI 技术在文本生成、语音交互、图像处理、视频理解等方面的应用将更加广泛。如果你对多模态 AI、语音合成或图像编辑感兴趣，不妨深入了解并尝试这些最新开源工具。

啵咯波咯哒 · 发表于 2025-9-23 10:03

阿里现在真是ai界的开源皇帝了，牛哇牛哇

› 综合交流 / 资源分享区 › 综合交流大区

阿里通义开源发布全球首个端到端全模态AI模型Qwen3-Omni ...

阿里通义开源发布全球首个端到端全模态AI模型Qwen3-Omni

相关帖子

浏览过的版块

站长推荐 /1