V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
summerzhen
V2EX  ›  问与答

如何提取 pdf 中的图片(svg\eps 矢量图以及 pdf 格式这种非常规图片格式)

  •  
  •   summerzhen · 2023-10-09 11:38:46 +08:00 · 626 次点击
    这是一个创建于 403 天前的主题,其中的信息可能已经有所发展或是发生改变。
    在论坛和社区种寻找过一些方法,但这些使用 PyPDF 和 PyMuPDF 库的方法基本只能提取 pdf 的 png ,jpg 格式的图形。
    https://www.geeksforgeeks.org/how-to-extract-images-from-pdf-in-python/
    https://stackoverflow.com/questions/2693820/extract-images-from-pdf-without-resampling-in-python

    但 pdf 以下两种图片会提取不到:
    1.以 svg 、eps 嵌入的矢量图(如曲线图)
    2.以 pdf 格式嵌入的图(几张图组合在一起并有箭头等标记最终以 pdf 保存)

    有什么办法可以解决以上问题吗
    2 条回复    2023-10-10 20:58:49 +08:00
    passive
        1
    passive  
       2023-10-09 14:05:48 +08:00 via Android
    手动:adobe reader 里 zoom+resize 窗口只显示表格,然后打印当前 view 成 pdf

    机动:改变 margin box ,嫌大就用工具把 box 外面的优化了
    summerzhen
        2
    summerzhen  
    OP
       2023-10-10 20:58:49 +08:00
    手动可以先 pass 了,想要批量的方式。
    机动:未曾想到的道路,但随手打开了一个 pdf ,图片没有作为元素节点存在啊,一页就是一个最末级的 div
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2758 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 12:39 · PVG 20:39 · LAX 04:39 · JFK 07:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.