如何将自己的 csdn 博客爬虫下来？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 1532 天前的主题，其中的信息可能已经有所发展或是发生改变。

昨天突然觉得，博客还是本地有一个备份比较好。

然后发现 csdn 自带的 markdown 导出的 md 文件是好用的，

只不过里面的图片是在 csdn 的图床里，我再把图片下载下来，再把 md 文件的图片从链接改成本地图片就好了。

除了大部分的文章是 markdown 写的外，还有小部分是用 html 编辑器写的（这种文章点击编辑，只能进入 html 编辑器，而且这个编辑器没有导出选项）。

现在大概思路是模拟自己登陆，然后点击文章编辑，能进入 markdown 编辑器的，就模拟点击那个导出按钮；进入 html 编辑器的，这种该怎么处理呢？

各位大佬帮忙指点下，这个思路应该对吧？爬虫估计得用 py 吧，本人用过 py 刷过算法题（大概就是常用数据结构、简单处理过文本），但从来没有用来爬虫，这几天先看看 GitHub，有没有什么现成的学习一下

2 条回复 • 2020-02-24 13:47:46 +08:00

miao

2020-02-24 13:45:28 +08:00 via Android

火车头

ysc3839

2020-02-24 13:47:46 +08:00 via Android

这操作用浏览器开发者工具执行 js 脚本应该也能完成。