V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
idblife
V2EX  ›  问与答

有啥软件或者服务可以做 PDF 文件的 OCR?

  •  
  •   idblife · 45 天前 · 1076 次点击
    这是一个创建于 45 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有很多扫描的老资料 PDF 想批量转换成文本方便检索
    19 条回复    2022-06-26 17:45:24 +08:00
    shyray
        1
    shyray  
       45 天前 via iPhone   ❤️ 1
    DEVONthink
    Nasei
        2
    Nasei  
       45 天前   ❤️ 1
    谷歌和微软都有 orc 的云服务 api

    https://cloud.google.com/vision/docs/pdf
    huandaeren
        3
    huandaeren  
       45 天前 via iPhone   ❤️ 1
    OCRmyPDF
    em70
        4
    em70  
       45 天前   ❤️ 1
    ABBYY FineReader
    俄罗斯人开发的神器,OCR 转换效果极好,淘宝几元钱就能买到,支持命令行可以批量操作,就是有点耗 CPU
    sunnysab
        5
    sunnysab  
       45 天前 via Android
    我印象里 ABBYY 对古籍等印刷不是很清晰的书效果一般,也可能是因为我版本老。耗 CPU 是真的!

    我也来蹲一个。
    kokutou
        6
    kokutou  
       45 天前
    ABBYY
    idblife
        7
    idblife  
    OP
       45 天前
    @em70
    不知道是不是支持 api 调用,想写个程序把 pdf 批量转换成文本然后写入到 mysql 里。
    我去看看文档
    idblife
        8
    idblife  
    OP
       45 天前
    @Nasei
    试用过 aws 的,对中文适配不太好
    idblife
        9
    idblife  
    OP
       45 天前
    @em70
    看到你回复里写命令行操作了,哈哈,跳跃性阅读了
    KDr2
        10
    KDr2  
       45 天前
    imydou
        11
    imydou  
       45 天前 via iPhone
    anbyy finereader 有按月的订阅
    paopjian
        12
    paopjian  
       45 天前
    pdf 转成图片再 ocr 不就行了,pymupdf pdf 转图片挺快得
    idblife
        13
    idblife  
    OP
       44 天前 via iPhone
    @paopjian
    主要是 ocr 不好解决
    paopjian
        14
    paopjian  
       44 天前   ❤️ 1
    @idblife 没懂 ocr 有啥不好解决的,我用的 paddleocr,配环境有点麻烦,配好了就是脚本跑了
    Features
        15
    Features  
       44 天前
    阿里云,百度云 API 吧
    国内的头部厂家
    本地软件根本没法比
    shakoon
        16
    shakoon  
       44 天前 via Android
    wps pdf ,开会员
    zhouwb
        17
    zhouwb  
       44 天前
    这种免费的效果都不会太好,wps 会员应该是最便宜的方案
    nyaruko
        18
    nyaruko  
       44 天前
    Word ? 2019 及之后还有 Office 365 应该可以直接打开 PDF 的,但不清楚楼主这个 PDF 是什么情况

    如果本身就能复制里面的文字应该可以直接转换成可编辑的 word 文档,如果里面是图片不好说

    以及企业版的 O365 可以直接通过 SharePoint 索引 PDF 内的内容
    idblife
        19
    idblife  
    OP
       44 天前
    @nyaruko
    里面是图片的那种扫描文档
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2792 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 14:42 · PVG 22:42 · LAX 07:42 · JFK 10:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.