支持109种语言,参数量仅0.9B:百度OCR神器以92.56分拿下全球第一!

最新AI落地实操,点击了解:https://qimuai.cn/
别翻那些发黄的文件了,也别再手动把表格一个个敲进电脑。
你肯定遇到过这种场景:一堆纸质文档、扫描件、表格、甚至手写笔记,要把里面的文字和结构提取出来,费时费力,还容易出错。
现在,这事儿可能真的要彻底被改变了。
前几天,百度飞桨团队放出了一个“神器”——PaddleOCR-VL。短短几天,它直接冲上Hugging Face趋势榜榜首,并且连续几天霸榜。
更硬核的是,在国际权威的文档解析评测OmniDocBench(v1.5版本)中,它以92.56的综合得分拿下了全球第一,把DeepSeek-OCR、上海AI Lab的MinerU等一众知名模型都甩在了身后。
它强在哪?
简单说就是:认得全,看得准,还跑得快。
- 认得全:支持整整109种语言。中文英文自不必说,俄语、阿拉伯语、印地语这些小众语系,甚至历史文档里的特殊字体、手写体,它都能处理。文本、表格、复杂公式、图表……各种元素一网打尽。
- 看得准:榜单分数说明一切。在文本、表格、公式、阅读顺序等多项细分评测中,它的综合表现是目前公开模型里的最强者。
- 跑得快:它的参数量只有0.9B(9亿),比动辄百亿、千亿参数的大模型轻巧得多。这意味着在保持高精度的同时,它的推理速度更快,对算力的要求也更低,普通设备也能跑起来。
它是怎么做到的?
它的工作方式很像一个高效的助理,分两步走:
- 先看整体布局:用PP-DocLayoutV2模型扫描文档,快速定位出哪里是标题,哪里是正文,表格在什么位置,图片怎么排的,并确定正确的阅读顺序。
- 再抠细节内容:轮到PaddleOCR-VL-0.9B这个视觉语言模型上场,对刚才定位的每一个区域进行细粒度识别。它能读懂区域的视觉信息,并把里面的文字、表格结构、公式含义准确地解析出来,最终生成结构化的数据。
为什么这件事如此重要?
你可能没注意,OCR(光学字符识别)技术正在成为AI世界的“基建狂魔”。
想想看,海量的知识、数据还锁在纸质文档和PDF里。大模型要训练,高质量的结构化数据是黄金食粮。谁能高效、精准地把这些“死”资料变成“活”数据,谁就卡住了下一代AI应用的关键位置。
百度、DeepSeek、上海AI Lab这些顶尖机构纷纷重兵投入OCR,目标非常明确:为大模型打造最强大的“数据消化系统”。PaddleOCR-VL的登顶,标志着我们在这条路上又迈出了坚实的一步。
文档理解的边界,正在被迅速推远。
—
所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。
文章目录
扫描二维码,在手机上阅读
版权所有:启幕AI
文章标题:支持109种语言,参数量仅0.9B:百度OCR神器以92.56分拿下全球第一!
文章链接:https://qimuai.cn/?post=1727
本站文章均为原创,未经授权请勿用于任何商业用途
文章标题:支持109种语言,参数量仅0.9B:百度OCR神器以92.56分拿下全球第一!
文章链接:https://qimuai.cn/?post=1727
本站文章均为原创,未经授权请勿用于任何商业用途