«

谷歌Gemini不过如此?Qwen3-Omni在36项测试中碾压对手。

qimuai 发布于 阅读:11 AI新闻


谷歌Gemini不过如此?Qwen3-Omni在36项测试中碾压对手。

最新AI落地实操,点击了解:https://qimuai.cn/

刚刚,AI圈被一个“全能选手”刷屏了。

不是那种需要东拼西凑、文字一个模型、语音再调用另一个插件的“组装货”。阿里云在9月发布的Qwen3-Omni,是真正意义上的原生全模态大模型。文本、图像、音频、视频,它都能原生理解,并能用文字或自然语音实时回应。

谷歌Gemini不过如此?Qwen3-Omni在36项测试中碾压对手。

这意味着什么?你给它一段视频,它不仅能“看”懂画面,还能“听”清里面的对话和环境音,然后和你聊剧情。你发一张图配一段语音提问,它能把视觉和听觉信息融合起来,给你一个完整的答案。

它不像工具,更像一个感官健全的伙伴。

一、强在哪?不是“会一点”,是“样样行”

很多人担心,什么都会一点,可能什么都不精。Qwen3-Omni用数据回应了这种担忧。

在36项音频/视频权威测试中,它拿下了22项全球最佳,32项在开源领域领先。自动语音识别、音频理解、语音对话,能力直接看齐谷歌的顶级模型Gemini 2.5 Pro。

更难得的是,它的文本和图像基础能力并没有因为要“全能”而缩水,依旧保持高水平。支持119种文本语言,图像生成的主体一致性也很高。

它证明了一件事:原生全模态不是牺牲单项能力换来的,而是真正的能力融合。

二、怎么做到的?原生端到端是核心

背后的关键,是它的原生端到端设计

过去的很多多模态方案,像是把几个专家(文字专家、图像专家、语音专家)硬凑在一起开会,中间需要复杂的翻译和协调。而Qwen3-Omni从“出生”就被设计成一个整体,像一个天生就拥有多种感官的大脑。

它采用MoE(混合专家)架构,总参数量约300亿,但每次推理只激活其中一部分,既保证了能力,又兼顾了效率。

谷歌Gemini不过如此?Qwen3-Omni在36项测试中碾压对手。

三、对你我意味着什么?想象空间彻底打开

想一想这些场景:

技术的边界,一下子被推远了。

四、最重要的:它已经开源了

是的,你没看错。这么强的模型,阿里云在9月23日已经正式开源,代码和模型权重全部开放。这意味着全球的开发者和企业都能免费使用、研究和二次开发。

这几乎是给整个AI行业发了一把“万能钥匙”。创新的门槛,被极大地降低了。

同步开源的还有Qwen3-TTS语音合成模型、Qwen-Image-Edit-2509图像编辑模型,生态已经初具雏形。


所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood。

AI每日进展

文章目录


    扫描二维码,在手机上阅读