谷歌Gemini不过如此？Qwen3-Omni在36项测试中碾压对手。

qimuai 发布于 2025-9-23 14:10 阅读：11 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

刚刚，AI圈被一个“全能选手”刷屏了。

不是那种需要东拼西凑、文字一个模型、语音再调用另一个插件的“组装货”。阿里云在9月发布的Qwen3-Omni，是真正意义上的原生全模态大模型。文本、图像、音频、视频，它都能原生理解，并能用文字或自然语音实时回应。

谷歌Gemini不过如此？Qwen3-Omni在36项测试中碾压对手。

这意味着什么？你给它一段视频，它不仅能“看”懂画面，还能“听”清里面的对话和环境音，然后和你聊剧情。你发一张图配一段语音提问，它能把视觉和听觉信息融合起来，给你一个完整的答案。

它不像工具，更像一个感官健全的伙伴。

很多人担心，什么都会一点，可能什么都不精。Qwen3-Omni用数据回应了这种担忧。

在36项音频/视频权威测试中，它拿下了22项全球最佳，32项在开源领域领先。自动语音识别、音频理解、语音对话，能力直接看齐谷歌的顶级模型Gemini 2.5 Pro。

更难得的是，它的文本和图像基础能力并没有因为要“全能”而缩水，依旧保持高水平。支持119种文本语言，图像生成的主体一致性也很高。

它证明了一件事：原生全模态不是牺牲单项能力换来的，而是真正的能力融合。

背后的关键，是它的原生端到端设计。

过去的很多多模态方案，像是把几个专家（文字专家、图像专家、语音专家）硬凑在一起开会，中间需要复杂的翻译和协调。而Qwen3-Omni从“出生”就被设计成一个整体，像一个天生就拥有多种感官的大脑。

它采用MoE（混合专家）架构，总参数量约300亿，但每次推理只激活其中一部分，既保证了能力，又兼顾了效率。

谷歌Gemini不过如此？Qwen3-Omni在36项测试中碾压对手。

想一想这些场景：

技术的边界，一下子被推远了。

是的，你没看错。这么强的模型，阿里云在9月23日已经正式开源，代码和模型权重全部开放。这意味着全球的开发者和企业都能免费使用、研究和二次开发。

这几乎是给整个AI行业发了一把“万能钥匙”。创新的门槛，被极大地降低了。

同步开源的还有Qwen3-TTS语音合成模型、Qwen-Image-Edit-2509图像编辑模型，生态已经初具雏形。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood。

文章目录

扫描二维码，在手机上阅读