最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:
但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个
关键是滑滚过去还会失败:
https://sf.taobao.com/item_list.htm
正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒
更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡
请问该如何道高一尺魔高一丈?🎃