V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
牛客网
Myprincess
V2EX  ›  程序员

如何提取 PDF 文档中的文字-(备注:文字被转曲线了)

  •  
  •   Myprincess · 10 天前 · 2690 次点击

    文档中的文字排版不规则。有没有好的软件推荐。

    37 条回复    2020-10-19 20:11:12 +08:00
    jarry777
        1
    jarry777   10 天前
    OCR
    Myprincess
        2
    Myprincess   10 天前
    @jarry777 ocr 能扫出来吗?这个是说明书。每个字体都是独立的。并且排版很乱。都不在一条直线上。
    yiXu
        3
    yiXu   10 天前   ❤️ 1
    @Myprincess 试试不要钱的 ocr,我一般电脑的用福昕,手机用白描(免费有次数限制)。其他的也有很多,都试试吧,正确率啥的,一般字是正的,不是奇形怪状,应该都还好,付费的话,应该会提高正确率,但是可能也就那样吧
    jedicxl
        4
    jedicxl   10 天前
    有什么说明书会排版乱到文字识别都不行的程度?
    那还不如找个非扫描版的说明书来的快了
    gcyrn
        5
    gcyrn   10 天前
    Adobe Acrobat
    yiXu
        6
    yiXu   10 天前
    简单方便的小软件的话,天若 ocr 文字识别,免费的,电脑的。收费的是开通功能,但是这个功能是可以调用付费接口,而接口是自己申请的,清楚了再付费。
    Myprincess
        7
    Myprincess   10 天前
    @gcyrn 不行,试了。动不了。一个字都动不了。
    jdhao
        8
    jdhao   10 天前 via Android
    有没有样张看一下?
    lichdkimba
        9
    lichdkimba   10 天前
    量小的话手打出来可能最快。。
    icyalala
        10
    icyalala   10 天前
    ABBYY FineReader,可以设置原始字体来扫描
    DreamSpace
        11
    DreamSpace   10 天前 via Android
    pdf 是一种描述文本书写方式的格式。如果很确定需要处理的是文字而非图片,那可以尝试用 pdf 相关的库解析一下
    yihaomizhijia
        12
    yihaomizhijia   10 天前
    找个人力成本低的人手打就是了。上万字另说。
    Myprincess
        13
    Myprincess   10 天前
    @jdhao
    @DreamSpace
    @icyalala
    文字是被转为图片了。无法改动。用 PDF 软件打开,单字都无法复制。
    tees
        14
    tees   10 天前
    你这个只能 ocr 了
    dsg001
        15
    dsg001   10 天前
    天若 5.0,免费,使用百度接口,只要不太过分,识别率还行
    Gathaly
        16
    Gathaly   10 天前
    投影法更正
    user8341
        17
    user8341   10 天前
    天若、福昕都是完整的软件。有没有可用在程序里的 OCR 库?
    Porphet
        18
    Porphet   10 天前   ❤️ 1
    腾讯开放的 ocr,优图 ocr,还有其他像阿里百度都有免费的 ocr,准确度很高
    Arrowing
        19
    Arrowing   10 天前
    我前几天也在找,找了很多个试了,发现这个识别率还可以,不过还是不满足我的要求,你可以试试看。
    https://zhcn.109876543210.com
    RioDoubleD
        20
    RioDoubleD   10 天前
    上个图看看,abbyy 可以调图片弯曲
    rund11
        21
    rund11   10 天前 via Android
    这种复杂文字 ocr 就要用百度,腾讯的识别接口,识别率还是很高的
    icyalala
        22
    icyalala   10 天前   ❤️ 1
    @Myprincess 说的就是这种情况啊,用 ABBYY FineReader 来进行 OCR,识别图片中的文字。你可以设置一个原始字体或者比较接近的中文字体,那样识别率会更高。
    user8341
        23
    user8341   10 天前
    @Porphet 都是 API 吗?有没有不依赖网络的能独立运行的库?
    Raynard
        24
    Raynard   10 天前
    office 手机版扫描试试
    bamboopainter
        25
    bamboopainter   10 天前 via iPhone
    打印出来,再用 scansnap 扫成电子版
    Myprincess
        26
    Myprincess   10 天前
    @Arrowing 试了,全黑色底文字有些识别不了。左右黑色 ,图片不会被切,上下黑,图片会被切掉。其它文字很棒。
    miaomiao888
        27
    miaomiao888   10 天前
    你这帖子中有贴图吗,得看看是哪样的字吧。

    可以试试 PandaOCR,里面有 20 来个 OCR 引擎你可以逐个试试看哪个更适合:github.com/miaomiaosoft/PandaOCR

    要是过于不规则的字可能要用离线 OCR 自己训练了
    Lemeng
        28
    Lemeng   10 天前
    有一大堆吧。51 破解?
    dabaibai
        29
    dabaibai   9 天前 via Android
    什么曲线? svg ?
    flynaj
        30
    flynaj   9 天前 via Android
    qq 带的 OCR Ctrl+ALT+O
    dadaslele
        31
    dadaslele   9 天前
    在线版本的,图片都能给你抠出来,支持 pdf2word,pdf2ppt 等等
    https://easypdf.com/
    Pichai
        32
    Pichai   9 天前
    https://smallpdf.com/cn
    你试试这个网站,上面有 pdf 转 word 。还有在线编辑 pdf 的。转换之前是每天可以免费使用两次该功能,其他的暂时不清楚。希望能帮到你。
    Porphet
        33
    Porphet   9 天前
    @user8341 那估计需要你自己训练一个 ocr 的模型了,现在主流算法都换成神经网络了吧,我是做 nlp 的所有不了解
    dany813
        34
    dany813   9 天前
    @dadaslele 刚转换一个 PDF,排版乱了
    user8341
        35
    user8341   9 天前
    @Porphet 很想知道有没有训练好的,27 楼那个不知道是不是。
    Porphet
        36
    Porphet   9 天前
    @user8341 不是、他也是调用 api,训练好的不可能开源吧,实在想用可以去搜搜论文
    kasusa
        37
    kasusa   9 天前
    用用 QQ 的 OCR,便捷,免费,在截图功能里面.
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2899 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 14:14 · PVG 22:14 · LAX 07:14 · JFK 10:14
    ♥ Do have faith in what you're doing.