V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
amiwrong123
V2EX  ›  问与答

如何将自己的 csdn 博客爬虫下来?

  •  
  •   amiwrong123 · 2020-02-24 13:31:29 +08:00 · 1133 次点击
    这是一个创建于 1532 天前的主题,其中的信息可能已经有所发展或是发生改变。

    昨天突然觉得,博客还是本地有一个备份比较好。

    然后发现 csdn 自带的 markdown 导出的 md 文件是好用的,

    1582521384(1)

    只不过里面的图片是在 csdn 的图床里,我再把图片下载下来,再把 md 文件的图片从链接改成本地图片就好了。

    除了大部分的文章是 markdown 写的外,还有小部分是用 html 编辑器写的(这种文章点击编辑,只能进入 html 编辑器,而且这个编辑器没有导出选项)。

    现在大概思路是模拟自己登陆,然后点击文章编辑,能进入 markdown 编辑器的,就模拟点击那个导出按钮;进入 html 编辑器的,这种该怎么处理呢?

    各位大佬帮忙指点下,这个思路应该对吧?爬虫估计得用 py 吧,本人用过 py 刷过算法题(大概就是常用数据结构、简单处理过文本),但从来没有用来爬虫,这几天先看看 GitHub,有没有什么现成的学习一下

    2 条回复    2020-02-24 13:47:46 +08:00
    miao
        1
    miao  
       2020-02-24 13:45:28 +08:00 via Android
    火车头
    ysc3839
        2
    ysc3839  
       2020-02-24 13:47:46 +08:00 via Android
    这操作用浏览器开发者工具执行 js 脚本应该也能完成。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1023 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 18:10 · PVG 02:10 · LAX 11:10 · JFK 14:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.