«

AI能听懂咳嗽声?它还能做这些事,你可能想不到……

qimuai 发布于 阅读:8 AI新闻


AI能听懂咳嗽声?它还能做这些事,你可能想不到……

最新AI落地实操,点击了解:https://qimuai.cn/

刚刚,我和一个AI进行了一场“全感官”对话。

我随手扔给它一张街景照片、一段咳嗽的音频,用语音问了句:“你看到和听到了什么?” 它几乎没有任何延迟,就用一口流利的英文语音回复我:“I see a street with cars and hear someone coughing.”(我看到一条有汽车的街道,并听到有人咳嗽。)

整个过程流畅得像在和真人Facetime。没有冰冷的文字,没有机械的等待。这就是通义千问刚刚推出的Qwen3-Omni给我的第一印象。

这不再是那个只能打字的AI了。

它生来就是一个“多面手”。文本、图像、音频、视频,它都能无缝理解和处理,并且能用文字或极其自然的语音实时回复你。最关键的是,它在任何一个单一模态上的能力都没有妥协——文本和图像的理解保持高水准,同时在36个音频/视频基准测试中,有22个达到了业界顶尖水平,在开源模型里更是32个都拿到了第一。

它能做什么?超乎你的想象。

这一切都得益于一个名为“Thinker-Talker”的新架构。简单说,它内部有一个“思考者”负责深度推理,一个“对话者”负责流畅交互。这种分工让它反应极快,对话自然,几乎没有延迟感。

对开发者来说,一个巨大的福音是开源。

团队同步开源了一个名为 Qwen3-Omni-30B-A3B-Captioner 的模型。这是一个通用、细节极其丰富、几乎不“胡说八道”的音频描述模型。简单说,你给它一段任何声音,它都能用文字给你描绘出一幅生动的画面。这填补了开源社区在高质量音频描述模型上的空白。

如果你想亲手把玩,官方在Hugging Face和ModelScope上都提供了模型下载,并贴心地给出了详细的“烹饪指南”(Cookbooks),从语音识别、音乐分析到视频导航,覆盖了十几种应用场景,还附带了可运行的Colab笔记。

这意味着什么?

这意味着,AI正在从一个“聪明的打字员”,进化成一个真正的“多模态智能体”。它能看、能听、会说,开始真正感知我们所在的这个世界。人机交互的范式,很可能将从“输入-等待-输出”的古老模式,转向更自然的、类似人与人之间的实时对话。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood。

AI每日进展

文章目录


    扫描二维码,在手机上阅读