V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Northxw
V2EX  ›  程序员

生产爬虫之某勾网职位信息爬虫

  •  
  •   Northxw · Apr 15, 2019 · 2286 views
    This topic created in 2576 days ago, the information mentioned may be changed or developed.

    碎碎念

      去年爬拉勾的时候,我依稀记得没有任何反爬措施,想爬就爬,无所畏惧..... 。到了 19 年,拉勾添加了极验验证,网页职位接口设置了 Cookies 反爬,职位接口数据也做了请求限制,但这丝毫不影响爬取拉勾的热情。

    抓取

      针对拉勾主页页面已有的职位名称,构造请求链接,抓取所有职位信息异步存储至 Mysql, 再存储一份到 Excel ,方便做可视化(也实现了 JSONPipeline,根据需要自行设置)。具体可详见代码。

    地址

    https://github.com/Northxw/Lagou 欢迎提交 issue。

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2162 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 00:34 · PVG 08:34 · LAX 17:34 · JFK 20:34
    ♥ Do have faith in what you're doing.