这是一个 ip 代理池项目
https://github.com/lujqme/proxy_pool
还有一个 Python 数据交流社群,数百名小伙伴们在这里交流数据抓取数据分析以及数据挖掘的内容,如果你有兴趣,也欢迎你加入!
微信群现有用户数百人,考虑增开分群。
为鼓励群里小伙伴动手写代码,让小伙伴们学习数据抓取的内容,群主会为每个成功贡献代码的小伙伴发红包,现在群昵称为 @指间沙、 @Vincent--LC 等数名小伙伴已经获得了近百元的红包奖励~~
如果你也对数据感兴趣,或者闲来无聊想写点代码,又有钱赚何乐而不为呢?
群早已超 100 人不能扫码进入,请加微信拉你入群,方式见
1
jjc27017 2017-11-18 13:11:40 +08:00
实测,群员之一,努力在学习,表示群里都是大神,群主也比较好耐心哈哈哈哈哈用¥来鼓励我们学习
|
2
ljhygh 2017-11-18 13:13:44 +08:00
本人目前群里一只小菜鸡,努力学习当中
|
3
zhijiansha 2017-11-18 13:14:08 +08:00
可以的,练手挺好,坐等楼主项目完成
|
4
smileghost 2017-11-18 13:19:26 +08:00
超好玩的呀,群主大神带着我们飞,还有红包拿,美滋滋~(~ ̄▽ ̄)~
|
5
dlsflh 2017-11-18 13:21:39 +08:00 via Android
这楼上的回复我都觉得是机器人。点开除了第一个又好像没啥问题…
|
8
xuyl 2017-11-18 13:27:29 +08:00
粗略看了下项目, 用 scrapy 做爬虫,pipelines 里数据持久化到 mongodb,只不过 process_items 方法有点小问题,没有去重。改成这样也许更好:
``` def process_item(self, item, spider): self.db['proxys'].update({'ip': item['ip']}, dict(item), True) return item ``` |
10
gamecreating 2017-11-18 15:48:20 +08:00
网站跪了
|
11
sunchen 2017-11-18 16:25:42 +08:00
爬的买的代理 IP 都是垃圾,ADSL 才是王道
|
12
cyancat0525 2017-11-18 17:19:32 +08:00 via Android
你确定这个是"池"吗
|
13
golmic OP @gamecreating #10 没有啊,一直正常
|
14
golmic OP @cyancat0525 #12 确定,后面还有一个打分系统
|
15
steveway 2017-11-18 19:31:59 +08:00 via Android
微信群并加不进去
|
19
gamecreating 2017-11-20 09:57:13 +08:00
@golmic 北京电信 无法链接
|
20
YMB 2017-11-20 10:42:07 +08:00
= =
|
21
golmic OP @gamecreating #19 其他小伙伴没有反馈。我北京联通正常
|
22
Soar360 2017-11-21 11:28:48 +08:00
爬虫工程师的自(。・∀・)ノ゙嗨
https://proxy.coderbusy.com/ |
25
beshe 2017-11-23 15:14:43 +08:00
|
26
golmic OP @beshe #25 这个项目我读过源码,存在多线程异步锁未释放问题,排查起来异常复杂,并且现在你去看看 issue 很多人提这个问题。所以自己基于 Scrapy 重写了一套,我也写了一套更完善的打分系统,后续也会开源出来。
|
27
doun 2017-11-25 08:21:47 +08:00 via Android
不是用 TOR 来做 IP 池比较好吗?
|
28
sangmong 2017-11-27 21:50:09 +08:00
如何区分雌性雄性?
|
29
sangmong 2017-11-27 21:50:33 +08:00
回复错了,尴尬。。。
|