«

GPT-4o算什么?阿里开源语音模型,让每个人都能拥有科幻级AI。

qimuai 发布于 阅读:24 AI新闻


GPT-4o算什么?阿里开源语音模型,让每个人都能拥有科幻级AI。

最新AI落地实操,点击了解:https://qimuai.cn/


嘿,Siri。

这两个字,每天被唤醒多少次?我们习惯了唤醒一个设备,等待它思考,然后听到一段略显生硬的合成语音。

如果,它不再需要“唤醒”,而是像朋友一样,直接和你开始一段自然、连续、甚至带着情绪的语音对话呢?

昨晚,阿里通义实验室扔出了一颗重磅炸弹:Fun-Audio-Chat-8B 模型正式开源。这可不是一次普通的更新,它直接把开源语音大模型的交互体验,拉到了科幻电影级别的门口。

真正的“开口就说”,告别拼装式AI

过去的语音助手怎么工作?你的声音先转成文字,文字交给大脑分析,答案再从文字转成语音。一套流程,三个模块,延迟和割裂感就是这么来的。

Fun-Audio-Chat-8B干了一件很酷的事:端到端。

你说的话,它直接“听”懂,然后在它的“大脑”里直接生成要“说”给你的声音。中间环节全部砍掉。

这意味着什么?

更快的响应。 当你说完,它就开始回应。就像两个人打电话,而不是中间隔着一个打字员。

更自然的交流。 它不仅能听懂你的字面意思,还能捕捉到你语气里的犹豫、开心或焦虑。技术报告里说,它经过了多阶段的情感对齐训练,为的就是能给出更有同理心的回应。比如,当你语气烦躁时,它也许会放慢语速,用更温和的方式回答。

凭什么这么快?秘密藏在“双分辨率”里

直接处理海量语音数据,计算成本不是一般的高。通义实验室的工程师们想了个聪明的办法:双分辨率架构。

简单理解,它用一套“共享主干”来快速抓取你说话的大意和核心信息,就像5Hz的快速扫描;同时,用一个“精炼头”来雕琢最终回话的细节和音质,达到25Hz的高保真水准。

这一招,节省了近50%的GPU算力开销。 又快又好,不再是土豪公司的专属。

它比你想象的更“能干”:直接开口指挥

如果说流畅对话是基础能力,那它的“Speech Function Call”功能,就是实用性的飞跃。

你不再需要学习复杂的指令或点击屏幕。 直接用自然语言说:“帮我查一下后天从北京飞上海的航班,选下午的,价格低于1000块的。”

它听懂了你的话,就能在后台调用相应的订票函数,并把结果“说”给你听。

想象一下这个场景:你在开车,双手离不开方向盘。想要调整智能家居、查询日程、甚至控制复杂的办公流程,动动嘴就行。 这不是未来,这是开源社区现在就能下载到的现实。

实力如何?数据说话

光说厉害不够,我们看硬指标。

在包括 OpenAudioBench、VoiceBench、UltraEval-Audio 在内的多项权威基准测试中,Fun-Audio-Chat-8B拿下了 SOTA(最优)成绩。在情感理解、语音工具调用等更具体的评测集上,也全面领先于同规模的开源模型。

一句话总结:在8B参数这个级别,它目前在开源世界里,没有对手。

现在就能玩,整个家族都开源了

最好的部分是,它没有门槛。 模型权重、推理代码、以及如何接入语音函数调用的详细示例,已经同步发布在 魔搭社区、Hugging Face 和 GitHub 上。开发者可以立刻下载、部署、甚至微调。

它也不是孤军奋战。Fun-Audio-Chat-8B属于“通义百聆”家族,它与之前开源的Fun-ASR(负责高精度语音转文字)和Fun-CosyVoice3(负责优质文字转语音)形成了完美互补。阿里正在构建一个完整的、全栈的开源语音技术生态。

写在最后

从GPT-4o到Gemini,巨头们都在向我们展示“原生多模态”交互的魔力。但闭源的技术再炫酷,终究是别人花园里的风景。

Fun-Audio-Chat-8B的开源,让我们第一次有机会,在自家后院亲手搭建一个同样强大的、能听会说、善解人意的AI伙伴。它会迅速进化,出现在下一台智能音箱、下一辆汽车、下一个陪伴机器人里。

所有领域都值得用AI重做一遍。 而这一次,是从“无声的点击”到“自然的对话”的彻底重做。

声音交互的闸门,已经被打开了。


所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读