V2EX › samray 的所有回复 › 第 6 页 / 共 8 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8

❮

❯

2017 年 6 月 23 日

回复了 samray 创建的主题 › Linux › 浅谈 Linux 开发环境无缝迁移

@SharkIng 看起来似乎就是我想要的效果，只是如果我想要的工具它不支持，我也是很无奈

2017 年 6 月 23 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

@tausi0661 这.... 我写这爬虫只是用来分享，并未打算用于商业用途．商业用途就有待你发掘了，但是前提是遵守相关法规　:)

2017 年 6 月 22 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

@doggg 说明人脉有时候比技术好用　:)

2017 年 6 月 22 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

@binux 这个并不能完全反反爬虫，只是可以提高突破的成功率．何况这个轮转操作并不是非常复杂和耗费资源，更何况我 UA 模拟的并不是正常用户，而是搜素引擎，搜索引擎本身也是爬虫．

2017 年 6 月 22 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

@doggg 对于学校图书馆的网站，真的只会把网站爬崩，不会有反爬策略这种东西存在的．

2017 年 6 月 22 日

回复了 samray 创建的主题 › Linux › 浅谈 Linux 开发环境无缝迁移

感觉各有所长吧，只是不同的取舍和选择．并不是所有的 Linuxer 都有用过 ansible, 但是基本比较有经验的 Linuxer 用户多多少少都会一点 shell .

2017 年 6 月 22 日

回复了 samray 创建的主题 › Linux › 浅谈 Linux 开发环境无缝迁移

@jyf007 交流的想法，并不是通用的解决方案哈．我没有用过 gentoo，但是相信 gentoo 下面还是会有 zsh 和对应的别名，环境变量配置的．然后就可以进行适配．

2017 年 6 月 22 日

回复了 samray 创建的主题 › Linux › 浅谈 Linux 开发环境无缝迁移

@whatot 但是某些部分，python 还是要调用 shell，例如你使用 apt-get 安装工具，这个 python 还是要调用　 shell 命令吧．所以我觉得，小的东西，涉及到很多　 shell 命令的操作，尽量都用 shell script 解决．此外，并不是所有的系统都会默认带有 python 环境的，但是 shell 这个解释器是一定会有的．

2017 年 6 月 22 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

@fate0 抱歉，一直理解错了你的观点 :(

2017 年 6 月 22 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

@fate0 我倾向于使用的就是 bloomfilter,只是当变成分布式爬虫的时候，可能会因为分布式的设计不一样而导致不一样的问题出现．单机使用 bloomfilter 和分布式不一样，可以新建一个 master 节点，然后所有的需要爬取和已爬取的 url 都保存在 master,然后 slave 节点只需请求待爬 url 就好．但是这种方式不同于　 scrapy-redis,就需要自己使用 bloomfilter 以及编写调度器

2017 年 6 月 22 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

@fate0 在这个项目中，我是直接用 scrapy-redis 来，而 scrapy-redis 是把 request 的指纹保存起来进去去重的．只是感觉这样的做法不是很符合我自己的做法，因为就我看来，去重应该是直接对 url 去重．感觉这是不同的取舍，所以感慨一下．

2017 年 6 月 22 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

附加一个个人推测，但未证实．在双１１或者是 618 搞活动的时候，电商网站的反爬虫策略一般都会关闭，或者不会那么严格，因为面对洪峰一样的流量，需要把尽量多的资源用于处理客户端请求，而越复杂的反爬机制，需要的验证就越多，耗费的资源也会相应增加．不过这个只是个人主观感觉+合理推测，未证实．

2017 年 6 月 22 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

@suliuyes 其实，并不是那么绝对的，例如爬淘宝，即使你经常换代理 IP，也没办法突破它的反爬策略，因为爬虫无论怎么慢，对比人来说，操作都太快了．再比如爬取 QQ 空间，并不是简单的模拟请求登陆就可以了，再你登陆之后，服务器会在 cookie 中返回三个值 p_skey,skey,rv2,然后作移位和与或操作得到一个 gtk 值，然后每次请求都要附上这个 gtk 值，不然都是 403.　更不要说 Google 的人机检验机制，不是人类根本用不了．代理 IP 是一个关键点，但是并不是全部．如果你爬取的网页超过 1000 ＋ w,光是去重就是一个值得深究的问题了．个人小小愚见　:)

2017 年 6 月 22 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

@xiaomeimei 相信你指的应该是　 PhantomJS 　和　 selenium 　配合使用来模拟浏览器，但是这样对于爬虫来说实在太耗费资源了，相当于打开一个没有 GUI 的浏览器，然后解析需要爬取的页面．这个只能作为不是办法的办法了．

2017 年 6 月 22 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

@lanpong 已经修改．谢谢你的建议．

2017 年 6 月 22 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

并没有了解过..

2017 年 6 月 22 日

回复了 samray 创建的主题 › Python › 从京东"窃取"150+万条数据 (爬虫)

@ayiis 为京东引入流量 :)(不要打我)