ZNDS智能电视网 推荐当贝市场

TV应用下载 / 资源分享区

软件下载 | 游戏 | 讨论 | 电视计算器

综合交流 / 评测 / 活动区

交流区 | 测硬件 | 网站活动 | Z币中心

新手入门 / 进阶 / 社区互助

新手 | 你问我答 | 免费刷机救砖 | ROM固件

查看: 14963|回复: 1
上一主题 下一主题
[交流讨论]

阿里通义开源发布全球首个端到端全模态AI模型Qwen3-Omni

[复制链接]
跳转到指定楼层
楼主
发表于 2025-9-23 10:00 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式 | 来自广东
9 月 23 日消息,阿里云正式发布并开源 Qwen3-Omni、Qwen3-TTS 和 Qwen-Image-Edit-2509。其中,Qwen3-Omni 被称为业界首个 端到端全模态 AI 模型,具备处理文本、图像、音频和视频的能力,标志着多模态大模型进入全新阶段。

Qwen3-Omni:首个原生全模态 AI 开源模型

阿里通义开源发布全球首个端到端全模态AI模型Qwen3-Omni


作为阿里云的核心亮点,Qwen3-Omni 具备以下特性:

跨模态顶级表现:结合文本预训练与混合多模态训练,保持文本和图像性能领先,同时大幅提升音频与视频能力。在 36 项音频/视频基准测试中,22 项达到最新水平,32 项在开源模型中处于领先。

多语言支持:覆盖 119 种文本语言、19 种语音输入语言、10 种语音输出语言,包括中文、英语、日语、韩语、德语、法语、西班牙语、俄语等。

创新架构:基于 MoE(专家混合)的“思考者–表达者”设计,结合 AuT 预训练和多码本架构,延迟更低。

实时音频/视频交互:支持低延迟流式对话,实现自然轮流发言和即时语音、文本响应。

精细音频描述:开源了 Qwen3-Omni-30B-A3B-Captioner,填补了开源社区音频描述领域的空白。

凭借这些能力,Qwen3-Omni 被认为在 ASR、语音对话、多模态理解等方面已能与 Gemini 2.5 Pro 对标。

Qwen3-TTS:多语言多音色文本转语音

阿里通义开源发布全球首个端到端全模态AI模型Qwen3-Omni


与此同时,阿里云还发布了 Qwen3-TTS,支持 17 种音色 和 10 种语言,不仅涵盖普通话、英语、日语、韩语、德语、俄语等,还覆盖闽南语、粤语、吴语、四川话等多种方言。

其升级版 Qwen3-TTS-Flash 在语音稳定性与音色相似度上超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs,成为新的开源 TTS 标杆。

Qwen-Image-Edit-2509:图像编辑一致性提升

阿里通义开源发布全球首个端到端全模态AI模型Qwen3-Omni


在图像领域,阿里云同步推出了 Qwen-Image-Edit-2509。相较于 8 月版本,该模型在多图像与单图像一致性上均有明显提升:

多图像编辑:支持人像与人像、人像与产品、人像与场景的组合编辑;

人像一致性优化:更好保留面部身份,适应不同风格与姿势;

产品与文字编辑增强:不仅能修改文字,还能调整字体、颜色和材质;

原生支持 ControlNet:包括深度图、边缘图和关键点图。

随着阿里云持续迭代 Qwen 系列模型,未来 AI 技术在文本生成、语音交互、图像处理、视频理解等方面的应用将更加广泛。如果你对多模态 AI、语音合成或图像编辑感兴趣,不妨深入了解并尝试这些最新开源工具。

上一篇:文件批量重命名工具推荐:zRenamer v1.6.2 批量改名更高效
下一篇:znds解绑手机号
沙发
发表于 2025-9-23 10:03 | 只看该作者 | 来自河南
阿里现在真是ai界的开源皇帝了,牛哇牛哇
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐 上一条 /1 下一条

Archiver|新帖|标签|软件|Sitemap|ZNDS智能电视网 ( 苏ICP备2023012627号 )

网络信息服务信用承诺书 | 增值电信业务经营许可证:苏B2-20221768 丨 苏公网安备 32011402011373号

GMT+8, 2026-4-20 00:24 , Processed in 0.073326 second(s), 15 queries , Redis On.

Powered by Discuz!

监督举报:report#znds.com (请将#替换为@)

© 2007-2026 ZNDS.Com

快速回复 返回顶部 返回列表