«

支持109种语言,参数量仅0.9B:百度OCR神器以92.56分拿下全球第一!

qimuai 发布于 阅读:7 AI新闻


支持109种语言,参数量仅0.9B:百度OCR神器以92.56分拿下全球第一!

最新AI落地实操,点击了解:https://qimuai.cn/

别翻那些发黄的文件了,也别再手动把表格一个个敲进电脑。

你肯定遇到过这种场景:一堆纸质文档、扫描件、表格、甚至手写笔记,要把里面的文字和结构提取出来,费时费力,还容易出错。

现在,这事儿可能真的要彻底被改变了。

前几天,百度飞桨团队放出了一个“神器”——PaddleOCR-VL。短短几天,它直接冲上Hugging Face趋势榜榜首,并且连续几天霸榜。

更硬核的是,在国际权威的文档解析评测OmniDocBench(v1.5版本)中,它以92.56的综合得分拿下了全球第一,把DeepSeek-OCR、上海AI Lab的MinerU等一众知名模型都甩在了身后。

它强在哪?

简单说就是:认得全,看得准,还跑得快。

它是怎么做到的?

它的工作方式很像一个高效的助理,分两步走:

  1. 先看整体布局:用PP-DocLayoutV2模型扫描文档,快速定位出哪里是标题,哪里是正文,表格在什么位置,图片怎么排的,并确定正确的阅读顺序。
  2. 再抠细节内容:轮到PaddleOCR-VL-0.9B这个视觉语言模型上场,对刚才定位的每一个区域进行细粒度识别。它能读懂区域的视觉信息,并把里面的文字、表格结构、公式含义准确地解析出来,最终生成结构化的数据。

为什么这件事如此重要?

你可能没注意,OCR(光学字符识别)技术正在成为AI世界的“基建狂魔”。

想想看,海量的知识、数据还锁在纸质文档和PDF里。大模型要训练,高质量的结构化数据是黄金食粮。谁能高效、精准地把这些“死”资料变成“活”数据,谁就卡住了下一代AI应用的关键位置。

百度、DeepSeek、上海AI Lab这些顶尖机构纷纷重兵投入OCR,目标非常明确:为大模型打造最强大的“数据消化系统”。PaddleOCR-VL的登顶,标志着我们在这条路上又迈出了坚实的一步。

文档理解的边界,正在被迅速推远。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读