GPT-4o算什么？阿里开源语音模型，让每个人都能拥有科幻级AI。

qimuai 发布于 2025-12-24 18:02 阅读：64 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

嘿，Siri。

这两个字，每天被唤醒多少次？我们习惯了唤醒一个设备，等待它思考，然后听到一段略显生硬的合成语音。

如果，它不再需要“唤醒”，而是像朋友一样，直接和你开始一段自然、连续、甚至带着情绪的语音对话呢？

昨晚，阿里通义实验室扔出了一颗重磅炸弹：Fun-Audio-Chat-8B 模型正式开源。这可不是一次普通的更新，它直接把开源语音大模型的交互体验，拉到了科幻电影级别的门口。

过去的语音助手怎么工作？你的声音先转成文字，文字交给大脑分析，答案再从文字转成语音。一套流程，三个模块，延迟和割裂感就是这么来的。

Fun-Audio-Chat-8B干了一件很酷的事：端到端。

你说的话，它直接“听”懂，然后在它的“大脑”里直接生成要“说”给你的声音。中间环节全部砍掉。

这意味着什么？

更快的响应。 当你说完，它就开始回应。就像两个人打电话，而不是中间隔着一个打字员。

更自然的交流。 它不仅能听懂你的字面意思，还能捕捉到你语气里的犹豫、开心或焦虑。技术报告里说，它经过了多阶段的情感对齐训练，为的就是能给出更有同理心的回应。比如，当你语气烦躁时，它也许会放慢语速，用更温和的方式回答。

直接处理海量语音数据，计算成本不是一般的高。通义实验室的工程师们想了个聪明的办法：双分辨率架构。

简单理解，它用一套“共享主干”来快速抓取你说话的大意和核心信息，就像5Hz的快速扫描；同时，用一个“精炼头”来雕琢最终回话的细节和音质，达到25Hz的高保真水准。

这一招，节省了近50%的GPU算力开销。 又快又好，不再是土豪公司的专属。

如果说流畅对话是基础能力，那它的“Speech Function Call”功能，就是实用性的飞跃。

你不再需要学习复杂的指令或点击屏幕。 直接用自然语言说：“帮我查一下后天从北京飞上海的航班，选下午的，价格低于1000块的。”

它听懂了你的话，就能在后台调用相应的订票函数，并把结果“说”给你听。

想象一下这个场景：你在开车，双手离不开方向盘。想要调整智能家居、查询日程、甚至控制复杂的办公流程，动动嘴就行。 这不是未来，这是开源社区现在就能下载到的现实。

光说厉害不够，我们看硬指标。

在包括 OpenAudioBench、VoiceBench、UltraEval-Audio 在内的多项权威基准测试中，Fun-Audio-Chat-8B拿下了 SOTA（最优）成绩。在情感理解、语音工具调用等更具体的评测集上，也全面领先于同规模的开源模型。

一句话总结：在8B参数这个级别，它目前在开源世界里，没有对手。

最好的部分是，它没有门槛。 模型权重、推理代码、以及如何接入语音函数调用的详细示例，已经同步发布在 魔搭社区、Hugging Face 和 GitHub 上。开发者可以立刻下载、部署、甚至微调。

它也不是孤军奋战。Fun-Audio-Chat-8B属于“通义百聆”家族，它与之前开源的Fun-ASR（负责高精度语音转文字）和Fun-CosyVoice3（负责优质文字转语音）形成了完美互补。阿里正在构建一个完整的、全栈的开源语音技术生态。

从GPT-4o到Gemini，巨头们都在向我们展示“原生多模态”交互的魔力。但闭源的技术再炫酷，终究是别人花园里的风景。

Fun-Audio-Chat-8B的开源，让我们第一次有机会，在自家后院亲手搭建一个同样强大的、能听会说、善解人意的AI伙伴。它会迅速进化，出现在下一台智能音箱、下一辆汽车、下一个陪伴机器人里。

所有领域都值得用AI重做一遍。 而这一次，是从“无声的点击”到“自然的对话”的彻底重做。

声音交互的闸门，已经被打开了。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

文章目录

扫描二维码，在手机上阅读