AI能听懂咳嗽声？它还能做这些事，你可能想不到……

qimuai 发布于 2025-9-23 11:30 阅读：8 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

刚刚，我和一个AI进行了一场“全感官”对话。

我随手扔给它一张街景照片、一段咳嗽的音频，用语音问了句：“你看到和听到了什么？” 它几乎没有任何延迟，就用一口流利的英文语音回复我：“I see a street with cars and hear someone coughing.”（我看到一条有汽车的街道，并听到有人咳嗽。）

整个过程流畅得像在和真人Facetime。没有冰冷的文字，没有机械的等待。这就是通义千问刚刚推出的Qwen3-Omni给我的第一印象。

这不再是那个只能打字的AI了。

它生来就是一个“多面手”。文本、图像、音频、视频，它都能无缝理解和处理，并且能用文字或极其自然的语音实时回复你。最关键的是，它在任何一个单一模态上的能力都没有妥协——文本和图像的理解保持高水准，同时在36个音频/视频基准测试中，有22个达到了业界顶尖水平，在开源模型里更是32个都拿到了第一。

它能做什么？超乎你的想象。

这一切都得益于一个名为“Thinker-Talker”的新架构。简单说，它内部有一个“思考者”负责深度推理，一个“对话者”负责流畅交互。这种分工让它反应极快，对话自然，几乎没有延迟感。

对开发者来说，一个巨大的福音是开源。

团队同步开源了一个名为 Qwen3-Omni-30B-A3B-Captioner 的模型。这是一个通用、细节极其丰富、几乎不“胡说八道”的音频描述模型。简单说，你给它一段任何声音，它都能用文字给你描绘出一幅生动的画面。这填补了开源社区在高质量音频描述模型上的空白。

如果你想亲手把玩，官方在Hugging Face和ModelScope上都提供了模型下载，并贴心地给出了详细的“烹饪指南”（Cookbooks），从语音识别、音乐分析到视频导航，覆盖了十几种应用场景，还附带了可运行的Colab笔记。

这意味着什么？

这意味着，AI正在从一个“聪明的打字员”，进化成一个真正的“多模态智能体”。它能看、能听、会说，开始真正感知我们所在的这个世界。人机交互的范式，很可能将从“输入-等待-输出”的古老模式，转向更自然的、类似人与人之间的实时对话。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood。

文章目录

扫描二维码，在手机上阅读