AI能听懂咳嗽声?它还能做这些事,你可能想不到……
最新AI落地实操,点击了解:https://qimuai.cn/
刚刚,我和一个AI进行了一场“全感官”对话。
我随手扔给它一张街景照片、一段咳嗽的音频,用语音问了句:“你看到和听到了什么?” 它几乎没有任何延迟,就用一口流利的英文语音回复我:“I see a street with cars and hear someone coughing.”(我看到一条有汽车的街道,并听到有人咳嗽。)
整个过程流畅得像在和真人Facetime。没有冰冷的文字,没有机械的等待。这就是通义千问刚刚推出的Qwen3-Omni给我的第一印象。
这不再是那个只能打字的AI了。
它生来就是一个“多面手”。文本、图像、音频、视频,它都能无缝理解和处理,并且能用文字或极其自然的语音实时回复你。最关键的是,它在任何一个单一模态上的能力都没有妥协——文本和图像的理解保持高水准,同时在36个音频/视频基准测试中,有22个达到了业界顶尖水平,在开源模型里更是32个都拿到了第一。
它能做什么?超乎你的想象。
- 你的随身翻译官:支持19种语音输入、10种语音输出。对着它说中文,它能实时用英文、日文、法文等回复你,文字语音都可以。
- 你的音乐鉴赏伙伴:给它一段音乐,它能给你分析风格、流派、节奏,甚至情感。
- 你的视频内容分析师:无论是描述整段视频内容,还是分析视频中的场景转换,它都能胜任。
- 甚至能“听音辨位”:在嘈杂的环境音中,它能分辨出人声、音乐和其他声音,并进行混合分析。
这一切都得益于一个名为“Thinker-Talker”的新架构。简单说,它内部有一个“思考者”负责深度推理,一个“对话者”负责流畅交互。这种分工让它反应极快,对话自然,几乎没有延迟感。
对开发者来说,一个巨大的福音是开源。
团队同步开源了一个名为 Qwen3-Omni-30B-A3B-Captioner 的模型。这是一个通用、细节极其丰富、几乎不“胡说八道”的音频描述模型。简单说,你给它一段任何声音,它都能用文字给你描绘出一幅生动的画面。这填补了开源社区在高质量音频描述模型上的空白。
如果你想亲手把玩,官方在Hugging Face和ModelScope上都提供了模型下载,并贴心地给出了详细的“烹饪指南”(Cookbooks),从语音识别、音乐分析到视频导航,覆盖了十几种应用场景,还附带了可运行的Colab笔记。
这意味着什么?
这意味着,AI正在从一个“聪明的打字员”,进化成一个真正的“多模态智能体”。它能看、能听、会说,开始真正感知我们所在的这个世界。人机交互的范式,很可能将从“输入-等待-输出”的古老模式,转向更自然的、类似人与人之间的实时对话。
所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood。