«

AI竞赛白热化,Meta放出REFRAG大招:推理速度提升30倍,谷歌微软慌了吗?

qimuai 发布于 阅读:6 AI新闻


AI竞赛白热化,Meta放出REFRAG大招:推理速度提升30倍,谷歌微软慌了吗?

最新AI落地实操,点击了解:https://qimuai.cn/

别等了,AI回答慢到让你想砸键盘?Meta刚刚放了个大招,直接让大模型推理速度飙升30倍!

没错,就是那个刚成立的超级智能实验室(MSL),首篇论文就扔出颗核弹:《REFRAG: Rethinking RAG based Decoding》。这技术专治各种“卡顿”——检索增强生成(RAG)任务中,首字生成延迟最高砍掉30倍,有效上下文窗口一口气扩到16倍!长文档处理、多轮对话,再也不用担心模型“记忆短路”了。

怎么做到的?三步拆解:

REFRAG玩的是“信息压缩”。它把检索到的大段文档压成紧凑的嵌入表示,内存占用骤减,输入序列变短——就像把杂乱仓库整理成精简货架,找东西快多了。

但光压缩不够,还得“智能筛选”。系统用强化学习动态决策:哪些片段保留原样,哪些可以压缩。不同任务下,自动平衡效率与效果,生成质量丝毫不打折。

最后是“扩展重建”。通过持续预训练,模型先学重建原序列,再逐步加难度,最后解冻解码器做段落预测。整个过程像健身增肌——越练越强,适应压缩上下文后,鲁棒性和泛化能力直线上升。

效果有多猛?

多轮对话、长文档摘要、Web级搜索……实测中,REFRAG在精度无损的前提下,推理速度飞起。相同延迟下,它能吞下更多段落,信息增益和任务表现双双突破。

传统RAG处理长上下文时,常因内存爆满而截断信息;REFRAG却把有效窗口扩至16倍,计算预算不变,数据处理量暴增。企业级应用?低延迟、长上下文需求,这次真稳了。

为什么是突破?

这套“压缩—筛选—扩展”流程,不止适用于RAG。任何需要高效处理长上下文的大模型——文档问答、摘要生成、多轮对话——都能套用。它背后是Meta在推理效率、经济性和可扩展性上的底层支撑。未来AI竞争,赢在速度,更赢在智能调度信息的能力。

回头看传统RAG:受限于模型窗口,内存占用高,延迟明显;REFRAG却用压缩表示和课程学习,实现30倍加速、16倍窗口扩展,泛化能力更强。这差距,不是迭代,是代际跨越。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读