1、在日常的工作中,大佬们的每日爬取数据量是多少,与数量对应的,都是如何处理爬取数据的(存放,清洗及分析)
2、在项目中,如果有数据爬取的团队,人数的配置和分工是多少呢?
3、在读崔庆才所著《 python3 网络爬虫实战开发》一书中,读到了 cookies 池维护及代理池维护部分,对于 cookies 池的动态管理,书中使用了 flask 框架+redis 数据库部署在云端服务器,通过调用 API 接口来随时获取随机 cookies,想问下在实际工作中,有经验的大佬会在云端部署方便开发,还是直接在爬虫项目中本地提取?
4、除打码平台之外,各位在项目过程中有尝试过机器学习破解验证码的经验么?
5、让各位比较有成就感的网站有哪些呢?
6、爬虫工程师的下一级技术层面的发展呢?
7、最想了解的就是项目工作中出现过最大的问题,以及解决办法。
8、没错,我就是培训出来缺工作经验的秃头年轻人。( web 前端+django+flask+spider+数据分析+AI )
9、反爬措施大多数已经有所了解。目前认为最困难的就是 JS+ajax 加密的请求。这种时候只知道用 selenium 这种解决方法。想知道各位遇到的神级反爬都是什么样的,如果遇到有过解决的思路或者方法么?
10、在过滤数据时,布隆过滤器的使用是不是为优选?在分布式爬虫中,去重应该已经实现,那么布隆过滤器的是在什么情况下会使用?
11、爬虫的编写会考虑算法和数据结构么?
12、爬虫框架的开发,在五大模块的基础上,实现了分布式,数据增量,请求增量,断点续爬,去重等基础条件下,接下来的开发方向有没有经验分享?
各位大佬抽几个回答就好,感激不尽。如果我还能想到什么问题,我会发部上来,希望能得到各位的建议和指教。
1
Linxing 2018-08-22 09:10:38 +08:00 via iPhone
简单回答下
1.不多 15W 条记录左右 2.目前爬虫只有我一个人在做 3.没用 cookie 池 有维护一个代理池 但是部署在本地服务器 4.打码平台方便 成本相对低一点 毕竟遇到变态的验证吗 还是少 5.不便透露 6.我比较菜 今年想做一下分布式 9.AJAX 目前我只能用模拟的方式 11.算法我用的不多 数据结构倒是要好好设计下 |