请教 v 友如何分辨一个 pdf 文档是扫描版还是文字版？速度优先，准确率其次

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 375 天前的主题，其中的信息可能已经有所发展或是发生改变。

问了大模型，目前用 pdfinfo/pdffonts/pdfimages 结合来，准确度不理想。

12 条回复 • 2024-12-11 13:56:53 +08:00

tool2dx

2024-12-10 13:58:30 +08:00

纯扫描版就是 jpg 内嵌大图，没有具体文字可以选中，用 pdf 文字提取工具，很容易识别的吧。

shintendo

2024-12-10 14:00:37 +08:00

文件体积除以页数

gpt5

2024-12-10 14:30:23 +08:00

@tool2dx 很多扫描都是带 ocr 的，可以选文字。

paopjian

2024-12-10 14:31:04 +08:00

直接用脚本尝试提取文字不可以吗?多于几个字就算是文字版

mclxly

2024-12-10 15:03:04 +08:00

@tool2dx 有大量文件，得程序自动识别

@shintendo 文件 1：25 页/588K 文件 2：334 页/1.7M 文件 3：141 页/3.3M ，你说这三本书咋区分？

mclxly

2024-12-10 15:07:51 +08:00

@paopjian 我遇到过可以提取少量文字的电子书（主要是扫描图片）

sketcherly

2024-12-10 16:39:48 +08:00

直接解析 pdf 统计字数呢

CLMan

2024-12-10 17:46:48 +08:00

就算是用文件大小/页，准确率应该也差不到哪里去。

cowcomic

2024-12-10 17:55:33 +08:00

如果是大面上的区分的话，大小除以页数应该就是比较迅速的方式了
除非要求比较精确，百分之多少是图片之类的

mclxly

2024-12-10 18:47:48 +08:00

@sketcherly 扫描版大部分是图片

@CLMan 单页大小阈值不好确定

@cowcomic 百分比阈值不好确定，我遇到过每页都有背景图的文字版电子书

xiaomageit

2024-12-10 23:10:21 +08:00

降精

israinbow

2024-12-11 13:56:53 +08:00 via Android

文字版 pdf 转成 html 看起来会很有逻辑.