100 元求一个能保存飞书页面为图文版本的方案

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 571 天前的主题，其中的信息可能已经有所发展或是发生改变。

需求：寻找一个能将飞书文章页面保存为离线的图文版 HTML 的方案

详情：这个问题已经困扰我很久了，因为工作原因，很多资料都在飞书上，但是不是我写的，有些写的好的想备份一份放 obsidian ，但是飞书好像做了反爬或者其他的一些工作，无法保存完整页面，我不是做前端的，没有深入分析过

已测试 SingleFile 及 savePageWe 扩展，只能保存到首屏的内容，GoFullPage 扩展可以截图全屏，但我不想要图片和 PDF 版本的，想要 HTML 版本的

截止时间：2023 年 10 月 1 日前有效，采纳此贴中回复的第一个有效方案，需免费方案

测试链接： https://uwdpzjnryu8.feishu.cn/docx/JGUpdkP0XoOwR0xvp9Xc2ME5ndh

第 1 条附言 · 2023-09-11 10:38:34 +08:00

补充一个权限卡的比较严的飞书链接
https://h0aadqm9fi.feishu.cn/docs/doccnfCvMuD5RbPPNXNDVNcrhKg

飞书

保存

HTML

页面

29 条回复

codeself

2023-09-10 12:01:56 +08:00 via iPhone

在浏览器里手动 ctrl+p 导出为 pdf 试试？

zyy4548

2023-09-10 12:18:10 +08:00

之前用的这个 https://github.com/xhnbzdl/feishu-doc-export

Vimal

2023-09-10 12:37:57 +08:00

测试链接可正常复制。全文粘贴到 obsidian ，图片还自带飞书图床链接，不占空间。
若一定要 html 格式，ob 第三方插件 pandoc 可导出为 html ，或 typora 打开导出 html 格式

若主要是解决飞书文档无法复制粘贴到 obsidian ，那还有其他方案。不确定最终需求。

Vimal

2023-09-10 12:41:50 +08:00

解除飞书复制和右键限制。
先安装油猴 Tampermonkey ，再安装这个脚本：
https://greasyfork.org/zh-CN/scripts/473784-%E6%94%B9%E8%BF%9B%E9%A3%9E%E4%B9%A6%E4%BD%93%E9%AA%8C

Myprajna

2023-09-10 13:02:20 +08:00

设计师常用的图片采集工具，Ealge （ 128 元终生 1 人），Billfish （免费）。
都提供了免费的整个网页的滚动截图工具。
可以看他们的文档，装个插件试一下。
https://eagle.cool/extensions
https://www.billfish.cn/help/chajiancaiji

Myprajna

2023-09-10 13:03:55 +08:00

再用 ABBYY OCR 识别，最准确的 OCR 识别软件了。

bjzhush

2023-09-10 14:23:08 +08:00

@Myprajna 大哥，请审题，截图我自己就搞定了。截图比起 HTML 有几个问题，第一不方便索引搜索，第二文件过大，第三链接没法点击

bjzhush

2023-09-10 14:30:24 +08:00

@Vimal 我试了确实可以复制，但 HTML 的格式并不能比较兼容的转为 MD ，而且很多链接实际上有二三十页，这样复制、粘贴、再导出 HTML 、再导入笔记，效率太低了，几乎不现实

bjzhush

2023-09-10 14:31:59 +08:00

@zyy4548
官方文档：因为它的下载方式是把选择的全部文档打包成压缩包后才会在浏览器返回给你，如果这个等待的过程中途断网或者电脑卡顿要重启，那你就白等那么长时间了。

第一这个导出的应该是自己写的，第二每次都打包所有文档，也不太现实。。

Lhcfl

2023-09-10 14:38:31 +08:00

试试保存为 mhtml

ivan_wl

2023-09-10 14:45:07 +08:00

飞书文档不是自带导出为 word 格式么，再用 word 另存为 html 啊

bjzhush

2023-09-10 14:52:34 +08:00

@ivan_wl 有很多文档是设置了权限不让另存为的

bjzhush

2023-09-10 14:54:25 +08:00

@ivan_wl 试了，不行，只有首屏有内容

vvhy

2023-09-10 14:58:25 +08:00

浏览器地址栏输入 javascript:innerHeight=9e9 回车，再划到最后让它加载完，然后用 SingleFile 保存

ivan_wl

2023-09-10 15:00:34 +08:00

@bjzhush #12 https://cowtransfer.com/s/c682266198be4d 你那个文档

bjzhush

2023-09-10 16:37:48 +08:00

@ivan_wl 谢谢你，这个文档我自己也可以存，但是很多文档设置了权限不让保存，所以还是需要插件之类的工具来自己离线保存

bjzhush

2023-09-10 16:43:19 +08:00

@vvhy 测试了下，有些文档可以保存成功，有些文档还是只有首屏或者完全空白

Vimal

2023-09-10 22:15:45 +08:00

@bjzhush #8 用 ob 的话，油猴插件能不限篇幅复制粘贴过去，且带 md 格式+图片过去已经很优秀了。飞书团队也不是吃干饭的，防复制、右键、打印、保存各种防。找了对比多种方法，暂时没见过无权限还能直接保存的，复制已经是上优解。
甚至其他收费下载工具也了解过，也是只支持复制文字(图片单独复制)，粘贴到自己新开的飞书文档，按需导出格式。不说了

t1cb2v754F32JdOs

2023-09-10 22:17:33 +08:00

@bjzhush 我刚测试了我离职时候的方法，evernote web cliper ，记住不是印象笔记的 web cliper ，这样能够截取整个页面，也不会触发公司的安全策略。
这个方法比截图好多了

a90120411

2023-09-10 22:41:00 +08:00

简单看了下代码，这个页面在普通模式下是懒加载，而且有视口剔除，一般方法肯定是不好使的。有两个方法可以试一下：
1 、HTML 页面里面有个很大的 JS 对象，里面是所有的文本和图片数据，规则很好理解，自己解析一下可以拼出文档。但我没在这个数据结构里面，看到文本样式的声明，可能拼出来会丢失样式。

2 、（推荐）进这个文档的演示模式，然后再开幻灯片模式，可以直接拿到所有的 DOM 结构，我试了一下可以提取全文和图片。部分样式保留了，但丢失了一些特殊样式，需要从原始文档里面提取一下 css 文件挂上。

bjzhush

2023-09-11 00:11:53 +08:00

@a90120411 抱歉，我不是前端，虽然用了很多年 chrome debugger ，但是仅限于基本都网络和 js 片段，让我自己解析拼接文档实在是高看我了。。。

@TheSpecialOne 我去搜了这俩 chrome 扩展，发现我一直用的是 evernote web cliper ，但是我一直是用印象笔记的，但是我试了 clip 整个页面也只捕获到了首屏，且左侧栏直接大片错乱。
然后我试了用 evernote+Evernote web clip ，也是差不多的效果。

@Vimal 有一些稍微负责的格式 MD 会转换错误的，比如表格，所以 HTML 还是得 HTML 来接

a90120411

2023-09-11 00:42:42 +08:00

@bjzhush #21 试试方法 2 吧，简单点一些，但想完美输出，还是要 Coding 的。
飞书这种页面除非是找到有针对性的工具，不然其他网友介绍的通用工具大概率都不可用。