V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dsg001
V2EX  ›  程序员

大模型都普及了,哪家的 ocr 可以比较完美的识别图中格式?

  •  
  •   dsg001 · 2023-10-20 13:43:45 +08:00 · 2832 次点击
    这是一个创建于 403 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如代码、表格、缩进

    8 条回复    2023-10-21 17:47:56 +08:00
    cccj1
        1
    cccj1  
       2023-10-20 15:59:21 +08:00
    wps 的识别还可以,表格识别很准,其他的不清楚
    tool2d
        2
    tool2d  
       2023-10-20 16:01:39 +08:00   ❤️ 1
    OCR 只能识别文字,识别不了表格。一般表格识别都是硬写代码,不是用 AI 的。

    AI 仅仅用于局部文本识别。
    BQsummer
        3
    BQsummer  
       2023-10-20 18:17:03 +08:00
    多模态的大模型还没有普及吧
    RatioPattern
        4
    RatioPattern  
       2023-10-20 20:39:29 +08:00
    google 的可以,其他都不行
    mMartin
        5
    mMartin  
       2023-10-20 21:39:45 +08:00
    paddleocr 识别表格还可以,有特定的模式
    em70
        6
    em70  
       2023-10-20 22:22:41 +08:00   ❤️ 1
    meta 在 8 月底开源了一个 OCR 项目 nougat,对数学公式支持非常好,专门识别论文的,输出格式是 Mathpix Markdown
    https://github.com/facebookresearch/nougat
    ovtfkw
        7
    ovtfkw  
       2023-10-20 22:28:43 +08:00
    扫描全能王
    uxfion
        8
    uxfion  
       2023-10-21 17:47:56 +08:00
    @em70 但是 nougat 根本就没支持中文,只有对拉丁系语言友好
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6013 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 02:40 · PVG 10:40 · LAX 18:40 · JFK 21:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.