支持109种语言，参数量仅0.9B：百度OCR神器以92.56分拿下全球第一！

qimuai 发布于 2025-10-24 18:02 阅读：186 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

别翻那些发黄的文件了，也别再手动把表格一个个敲进电脑。

你肯定遇到过这种场景：一堆纸质文档、扫描件、表格、甚至手写笔记，要把里面的文字和结构提取出来，费时费力，还容易出错。

现在，这事儿可能真的要彻底被改变了。

前几天，百度飞桨团队放出了一个“神器”——PaddleOCR-VL。短短几天，它直接冲上Hugging Face趋势榜榜首，并且连续几天霸榜。

更硬核的是，在国际权威的文档解析评测OmniDocBench（v1.5版本）中，它以92.56的综合得分拿下了全球第一，把DeepSeek-OCR、上海AI Lab的MinerU等一众知名模型都甩在了身后。

它强在哪？

简单说就是：认得全，看得准，还跑得快。

认得全：支持整整109种语言。中文英文自不必说，俄语、阿拉伯语、印地语这些小众语系，甚至历史文档里的特殊字体、手写体，它都能处理。文本、表格、复杂公式、图表……各种元素一网打尽。
看得准：榜单分数说明一切。在文本、表格、公式、阅读顺序等多项细分评测中，它的综合表现是目前公开模型里的最强者。
跑得快：它的参数量只有0.9B（9亿），比动辄百亿、千亿参数的大模型轻巧得多。这意味着在保持高精度的同时，它的推理速度更快，对算力的要求也更低，普通设备也能跑起来。

它是怎么做到的？

它的工作方式很像一个高效的助理，分两步走：

先看整体布局：用PP-DocLayoutV2模型扫描文档，快速定位出哪里是标题，哪里是正文，表格在什么位置，图片怎么排的，并确定正确的阅读顺序。
再抠细节内容：轮到PaddleOCR-VL-0.9B这个视觉语言模型上场，对刚才定位的每一个区域进行细粒度识别。它能读懂区域的视觉信息，并把里面的文字、表格结构、公式含义准确地解析出来，最终生成结构化的数据。

为什么这件事如此重要？

你可能没注意，OCR（光学字符识别）技术正在成为AI世界的“基建狂魔”。

想想看，海量的知识、数据还锁在纸质文档和PDF里。大模型要训练，高质量的结构化数据是黄金食粮。谁能高效、精准地把这些“死”资料变成“活”数据，谁就卡住了下一代AI应用的关键位置。

百度、DeepSeek、上海AI Lab这些顶尖机构纷纷重兵投入OCR，目标非常明确：为大模型打造最强大的“数据消化系统”。PaddleOCR-VL的登顶，标志着我们在这条路上又迈出了坚实的一步。

文档理解的边界，正在被迅速推远。

—

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

文章目录

扫描二维码，在手机上阅读