V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  forever139  ›  全部回复第 8 页 / 共 9 页
回复总数  171
1  2  3  4  5  6  7  8  9  
看来我每个月1亿多的量,和你们每个月抓取15-30亿条相比,还是你们的危害更大!哈哈!
2015-01-21 09:54:24 +08:00
回复了 imaygou 创建的主题 酷工作 40W 年薪竟然招不到靠谱 python 后台开发工程师!
又来顶一个,哈哈!
2015-01-13 10:18:30 +08:00
回复了 imaygou 创建的主题 酷工作 [深圳][么么嗖]已备好银两寻找 python 程序猿、爬虫攻城狮
顶一个
@imaygou 可以加你上面的qq聊下吗,有冲动想换换环境。
@imaygou hi,上次说反馈bug,邮件已发你们hr邮箱,bug依然存在
2014-11-17 09:05:55 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@binux 第一次分享出来的时候,就拉到本地测试过,环境啥的都好了,就是页面没反应,然后搞了几个月的scrapy,这次再试试。
@imaygou 等我下班,看能不能把错误重现出来,再发邮件给你们。对你们的爬虫工程师很感兴趣,前端时间才倒腾完scrapy扒各大app市场的数据!不过对js引擎这块不是很熟!而且刚在公司转正!希望以后来你们公司!
@imaygou 貌似你们的客户端软件在没网的情况下打开,会报java异常
2014-10-20 21:03:47 +08:00
回复了 niuer 创建的主题 云计算 七牛三周年嘉年华 感恩有你
44
2014-10-14 10:12:49 +08:00
回复了 yangyanggnu 创建的主题 程序员 所需即所获:像 IDE 一样使用 vim
已star
对的,实质还是公寓,只不过环境好点,可以长租@kmvan
2014-10-09 09:48:53 +08:00
回复了 janwen 创建的主题 问与答 paypal itunes code 15% off
貌似你可以代充值paypal哇,想冲点,激活digitalocean @janwen
2014-09-26 14:08:11 +08:00
回复了 pc10201 创建的主题 Python scrapy 如何采集分页数据?
2014-09-24 13:54:31 +08:00
回复了 pc10201 创建的主题 Python scrapy 如何采集分页数据?
楼主的意思我懂,你这种做法其实也是可以的,官方是推荐都能通过自己的requests管理,如果有额外的参数,你可以通过request的meta属性来yield给下个request,然后在response中取出来,这样你就可以是一个item.不过你这种情况可能传递的内容比较多,效率比较低。
2014-09-22 14:09:38 +08:00
回复了 rainday 创建的主题 程序员 福利!花了两个月时间终于和妹纸做完了程序员最爱的网站
小手一抖,多谢 lipei.love#gmail.com
2014-09-17 17:27:15 +08:00
回复了 pc10201 创建的主题 Python scrapy 为不同网站设置不同的代理
其实作者有提供的,
class SelectiveProxyMiddleware(object):
"""A middleware to enable http proxy to selected spiders only.

Settings:
HTTP_PROXY -- proxy uri. e.g.: http://user:[email protected]:port
PROXY_SPIDERS -- all requests from these spiders will be routed
through the proxy
"""

def __init__(self, settings):
self.proxy = self.parse_proxy(settings.get('HTTP_PROXY'), 'http')
self.proxy_spiders = set(settings.getlist('PROXY_SPIDERS', []))

@classmethod
def from_crawler(cls, crawler):
return cls(crawler.settings)

def parse_proxy(self, url, orig_type):
proxy_type, user, password, hostport = _parse_proxy(url)
proxy_url = urlunparse((proxy_type or orig_type, hostport, '', '', '', ''))

if user and password:
user_pass = '%s:%s' % (unquote(user), unquote(password))
creds = base64.b64encode(user_pass).strip()
else:
creds = None

return creds, proxy_url

def process_request(self, request, spider):
if spider.name in self.proxy_spiders:
creds, proxy = self.proxy
request.meta['proxy'] = proxy
if creds:
request.headers['Proxy-Authorization'] = 'Basic ' + creds




然后再在你的settings.py里配置:
HTTP_PROXY='your_proxy'
PROXY_SPIDERS=[your_spider_names]



不过整体和你的思路一样
2014-08-26 22:04:09 +08:00
回复了 forever139 创建的主题 程序员 [求助]关于 google play app 的分类问题
@wesley 感谢回复,你说的是测试应用内购买的那个吧,不过这个感觉也不能批量化,自动化,而且比较费时,属于我的第三种方案,而且第三种方案,很多只需要看应用截图,人就能判断。
1  2  3  4  5  6  7  8  9  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   801 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 21:21 · PVG 05:21 · LAX 14:21 · JFK 17:21
Developed with CodeLauncher
♥ Do have faith in what you're doing.