V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
zjyl1994
V2EX  ›  分享创造

整了个免费的离线 OCR 网站

  •  
  •   zjyl1994 · 2022-09-25 10:06:33 +08:00 · 5115 次点击
    这是一个创建于 774 天前的主题,其中的信息可能已经有所发展或是发生改变。

    把 Tesseract.js 包装成直接能用的网站了,全程在你的浏览器中识别,不需要上传。

    个人主要用来识别测试反馈的截图, 抓里面的 TraceID 和接口调用参数,使用体验还不错。

    对英文的识别效果还可以,中文的有点菜。

    Lazydog OCR

    在线体验版: https://ocr.zjyl1994.com/

    Github: https://github.com/zjyl1994/lazydogocr

    注意:需要你的浏览器支持 WASM ,在线体验版部署在 CF Pages 上,加载训练数据需要 10 多 MB ,可能不会太快。

    20 条回复    2023-10-12 14:55:30 +08:00
    jeesk
        1
    jeesk  
       2022-09-25 11:54:24 +08:00 via Android
    10s 都识别不出 😂
    zjyl1994
        2
    zjyl1994  
    OP
       2022-09-25 12:04:24 +08:00 via iPhone
    @jeesk 网络原因?训练数据在 cf pages 上估计没拉下来。超高分辨率的图片也有可能很慢
    jeesk
        3
    jeesk  
       2022-09-25 13:41:27 +08:00 via Android
    @zjyl1994 就是截图。 里面有 4 个字
    Kiriya
        4
    Kiriya  
       2022-09-25 16:15:00 +08:00
    可以考虑打包成本地应用😁
    HugoChao
        5
    HugoChao  
       2022-09-25 16:54:25 +08:00
    用了一下 感觉不错
    mozila
        6
    mozila  
       2022-09-25 21:54:37 +08:00
    先 m
    HiCoder
        7
    HiCoder  
       2022-09-25 22:23:09 +08:00
    试了下,不错
    zjyl1994
        8
    zjyl1994  
    OP
       2022-09-25 23:47:49 +08:00 via iPhone
    @Kiriya 仓库拖下来用任何一个 http 服务器提供服务就可以了,打包本地应用我还不会弄,前端苦手
    subframe75361
        9
    subframe75361  
       2022-09-26 08:55:26 +08:00
    好东西,可以考虑做个 pwa ?
    ShuaiYH
        10
    ShuaiYH  
       2022-09-26 09:11:56 +08:00
    个人感觉这个库识别率有点低,特别是对于手写的
    Aying
        11
    Aying  
       2022-09-26 10:11:35 +08:00
    试了一下,不是很妙,中英文都试了。
    https://ibb.co/Wn8tfMJ
    https://ibb.co/7Gqy3KW
    villivateur
        12
    villivateur  
       2022-09-26 10:38:21 +08:00
    中文识别,为什么每个字之间都会多出一个空格?
    vantis
        13
    vantis  
       2022-09-26 11:38:43 +08:00
    中文可以试试 paddle 阿里云有一件部署的 感觉识别率挺高

    我是本地用 python 跑的 搭配 Alfred workflow 除了慢都挺好……
    vtwoextb
        14
    vtwoextb  
       2022-09-27 08:14:34 +08:00
    现在开源的深度学习框架很多都包括 OCR ,这东西比较费资源
    marvinemao
        15
    marvinemao  
       2022-09-27 09:39:09 +08:00
    感觉不错
    macy
        16
    macy  
       2022-09-27 13:56:29 +08:00
    基于这个库做过一个 pdf 识别的软件,除了慢点,效果还好,可以做精准识别,配置截图,将大图截取指定部分,会快很多,也会准确一些
    caomingjun
        17
    caomingjun  
       2022-09-28 23:49:53 +08:00
    如果只开发 Windows 应用,可以试试自带的 OCR: https://learn.microsoft.com/en-us/uwp/api/Windows.Media.Ocr?view=winrt-22621
    bianz103
        18
    bianz103  
       2022-10-05 18:46:13 +08:00
    昨天把 paddleocr 整合到本地软件 verycapture 了,识别速度大概 8 秒左右,建议楼主可以试试
    superliy
        19
    superliy  
       2023-02-23 16:13:29 +08:00
    @bianz103 手写汉字吗?准确率怎么样
    Endocryne
        20
    Endocryne  
       2023-10-12 14:55:30 +08:00
    识别率不是很理想
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3040 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 13:43 · PVG 21:43 · LAX 05:43 · JFK 08:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.