有从事爬虫或数据分析的大佬，小弟有些问题想请教一下。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2320 天前的主题，其中的信息可能已经有所发展或是发生改变。

1、在日常的工作中，大佬们的每日爬取数据量是多少，与数量对应的，都是如何处理爬取数据的（存放，清洗及分析）

2、在项目中，如果有数据爬取的团队，人数的配置和分工是多少呢？

3、在读崔庆才所著《 python3 网络爬虫实战开发》一书中，读到了 cookies 池维护及代理池维护部分，对于 cookies 池的动态管理，书中使用了 flask 框架+redis 数据库部署在云端服务器，通过调用 API 接口来随时获取随机 cookies，想问下在实际工作中，有经验的大佬会在云端部署方便开发，还是直接在爬虫项目中本地提取？

4、除打码平台之外，各位在项目过程中有尝试过机器学习破解验证码的经验么？

5、让各位比较有成就感的网站有哪些呢？

6、爬虫工程师的下一级技术层面的发展呢？

7、最想了解的就是项目工作中出现过最大的问题，以及解决办法。

8、没错，我就是培训出来缺工作经验的秃头年轻人。（ web 前端+django+flask+spider+数据分析+AI ）

9、反爬措施大多数已经有所了解。目前认为最困难的就是 JS+ajax 加密的请求。这种时候只知道用 selenium 这种解决方法。想知道各位遇到的神级反爬都是什么样的，如果遇到有过解决的思路或者方法么？

10、在过滤数据时，布隆过滤器的使用是不是为优选？在分布式爬虫中，去重应该已经实现，那么布隆过滤器的是在什么情况下会使用？

11、爬虫的编写会考虑算法和数据结构么？

12、爬虫框架的开发，在五大模块的基础上，实现了分布式，数据增量，请求增量，断点续爬，去重等基础条件下，接下来的开发方向有没有经验分享？

各位大佬抽几个回答就好，感激不尽。如果我还能想到什么问题，我会发部上来，希望能得到各位的建议和指教。

第 1 条附言 · 2018-08-21 09:16:11 +08:00

估计是沉了。看看现在有没有人看得到...

大佬

爬虫

数据

1 条回复 • 2018-08-22 09:10:38 +08:00

Linxing

2018-08-22 09:10:38 +08:00 via iPhone

简单回答下
1.不多 15W 条记录左右
2.目前爬虫只有我一个人在做
3.没用 cookie 池有维护一个代理池但是部署在本地服务器
4.打码平台方便成本相对低一点毕竟遇到变态的验证吗还是少
5.不便透露
6.我比较菜今年想做一下分布式
9.AJAX 目前我只能用模拟的方式
11.算法我用的不多数据结构倒是要好好设计下