«

终于,AI能随时打断了!英伟达推出PersonaPlex,真人级对话成现实。

qimuai 发布于 阅读:34 AI新闻


终于,AI能随时打断了!英伟达推出PersonaPlex,真人级对话成现实。

最新AI落地实操,点击了解:https://qimuai.cn/

终于,能随时打断的AI语音,它来了

有没有经历过这种抓狂时刻——

给客服打电话,那边AI一句话没说完,你急着插嘴,它却像没听见一样,自顾自把标准话术念完,然后安静地等你说“是”或“不是”。

或者,跟家里的智能音箱聊天,你问一个问题,它要“思考”几秒,空气突然安静,对话的节奏碎了一地。

这种机械式的、你等我我等你的一问一答,可能快成历史了。

就在昨天,英伟达丢出了一颗重磅炸弹:PersonaPlex-7B-v1。这个名字有点绕,但你只需要记住它的核心——“全双工”语音AI

这可不是一次简单的版本更新,它瞄准的,是撕掉语音助手身上最后那层“机械感”的标签。

什么叫“抢话自由”?

过去你和Siri、小爱同学对话,叫“半双工”。就像一条独木桥,一次只能过一个人。必须等它“叮”一声说完,你才能开口。

而PersonaPlex实现的“全双工”,好比一条宽阔马路,允许双向同时通车。

这意味着什么?

意味着AI说话时,你可以随时打断它。你突然想起一个关键细节,不用等,直接说。对话的停顿、迟疑、冷场,被大幅压缩。

它的响应速度是“实时流式”的。声音一边进,模型一边处理,几乎感觉不到延迟。那种对着空气自言自语等待回音的尴尬,终于有望被终结。

这背后,是英伟达干掉了过去那套复杂的“流水线”。

以前做语音对话,得把系统拆成好几块:一个模块专门听写转文字,一个模块负责理解并生成回答的文字,再一个模块把文字合成语音。环节多,效率低,容易卡壳。

现在,PersonaPlex用一个统一的Transformer大模型,同步处理声音流,同时预测该说什么文本、以及用什么样的声音说出来。

一步到位,一气呵成。

更吓人的是:你可以“捏”它的灵魂

如果只是反应快,那顶多是个“嘴皮子利索的客服”。

PersonaPlex的另一个杀手锏,是深度个性化

你可以用一段长达200个词的“系统提示”,去定义它的角色、知识库和说话风格。让它可以是熟知你公司所有产品的金牌销售,也可以是精通《红楼梦》的文史爱好者,还可以是那个永远充满耐心、语调温柔的育儿顾问。

这还没完。你甚至可以为它注入特定的“语音嵌入”,定制它声音里的情感和音色。

换句话说,你不仅是在定制一个知识库,更是在塑造一个鲜活的、有辨识度的对话人格。未来,你听到声音,就能知道它是谁。

为什么说这事关所有人?

全双工语音,远不止是“让Siri更聪明”那么简单。

想象几个场景:

技术的门槛正在被踏平。当实时、自然、个性化的语音交互成为基础设施,每一行每一业与用户接触的方式,都会被重构。

语音交互的“iPhone时刻”,或许就在不远处。那个曾经笨拙的、需要你迁就它的机器,终于开始学习,如何像人一样聊天。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读