V2EX › forever139 的所有回复 › 第 8 页 / 共 9 页

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

1 2 3 4 5 6 7 8 9

❮

❯

2015-01-30 13:57:57 +08:00

回复了 gouwudang 创建的主题 › 酷工作 › [北京/南京]求前端工程师、Python 后端工程师，工资你来谈、工作有挑战、职业有发展

看来我每个月1亿多的量,和你们每个月抓取15-30亿条相比,还是你们的危害更大!哈哈!

2015-01-21 09:54:24 +08:00

回复了 imaygou 创建的主题 › 酷工作 › 40W 年薪竟然招不到靠谱 python 后台开发工程师！

又来顶一个，哈哈！

2015-01-13 10:18:30 +08:00

回复了 imaygou 创建的主题 › 酷工作 › [深圳][么么嗖]已备好银两寻找 python 程序猿、爬虫攻城狮

顶一个

2014-12-18 17:20:08 +08:00

回复了 imaygou 创建的主题 › 酷工作 › [深圳][爱美购招聘]技术团队需要大量的小鲜肉！公司 MM 等你帮脱单！

@imaygou 可以加你上面的qq聊下吗，有冲动想换换环境。

2014-12-15 17:48:42 +08:00

回复了 imaygou 创建的主题 › 酷工作 › [深圳][爱美购招聘]技术团队需要大量的小鲜肉！公司 MM 等你帮脱单！

@imaygou hi,上次说反馈bug,邮件已发你们hr邮箱，bug依然存在

2014-11-17 09:05:55 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@binux 第一次分享出来的时候，就拉到本地测试过，环境啥的都好了，就是页面没反应，然后搞了几个月的scrapy,这次再试试。

2014-11-07 17:58:34 +08:00

回复了 imaygou 创建的主题 › 酷工作 › [深圳][爱美购招聘]技术团队需要大量的小鲜肉！公司 MM 等你帮脱单！

@imaygou 等我下班，看能不能把错误重现出来，再发邮件给你们。对你们的爬虫工程师很感兴趣，前端时间才倒腾完scrapy扒各大app市场的数据！不过对js引擎这块不是很熟！而且刚在公司转正！希望以后来你们公司！

2014-11-07 13:53:54 +08:00

回复了 imaygou 创建的主题 › 酷工作 › [深圳][爱美购招聘]技术团队需要大量的小鲜肉！公司 MM 等你帮脱单！

@imaygou 貌似你们的客户端软件在没网的情况下打开，会报java异常

2014-10-20 21:03:47 +08:00

回复了 niuer 创建的主题 › 云计算 › 七牛三周年嘉年华感恩有你

44

2014-10-14 10:12:49 +08:00

回复了 yangyanggnu 创建的主题 › 程序员 › 所需即所获：像 IDE 一样使用 vim

已star

2014-10-11 13:53:13 +08:00

回复了 forever139 创建的主题 › 问与答 › 有坛友知道广州 1 号线附近，有环境比较好的酒店式公寓吗？大概月租在 2000 左右或以内的！想换房子了！貌似魔方公寓评价不咋好！求大神指导！

对的，实质还是公寓，只不过环境好点，可以长租@kmvan

2014-10-09 09:48:53 +08:00

回复了 janwen 创建的主题 › 问与答 › paypal itunes code 15% off

貌似你可以代充值paypal哇，想冲点，激活digitalocean @janwen

2014-09-26 14:08:11 +08:00

回复了 pc10201 创建的主题 › Python › scrapy 如何采集分页数据？

@pc10201 http://doc.scrapy.org/en/latest/topics/request-response.html

2014-09-24 13:54:31 +08:00

回复了 pc10201 创建的主题 › Python › scrapy 如何采集分页数据？

楼主的意思我懂，你这种做法其实也是可以的，官方是推荐都能通过自己的requests管理，如果有额外的参数，你可以通过request的meta属性来yield给下个request，然后在response中取出来，这样你就可以是一个item.不过你这种情况可能传递的内容比较多，效率比较低。

2014-09-22 14:09:38 +08:00

回复了 rainday 创建的主题 › 程序员 › 福利！花了两个月时间终于和妹纸做完了程序员最爱的网站

小手一抖，多谢 lipei.love#gmail.com

2014-09-17 17:27:15 +08:00

回复了 pc10201 创建的主题 › Python › scrapy 为不同网站设置不同的代理

其实作者有提供的，
class SelectiveProxyMiddleware(object):
"""A middleware to enable http proxy to selected spiders only.

Settings:
HTTP_PROXY -- proxy uri. e.g.: http://user:[email protected]:port
PROXY_SPIDERS -- all requests from these spiders will be routed
through the proxy
"""

def __init__(self, settings):
self.proxy = self.parse_proxy(settings.get('HTTP_PROXY'), 'http')
self.proxy_spiders = set(settings.getlist('PROXY_SPIDERS', []))

@classmethod
def from_crawler(cls, crawler):
return cls(crawler.settings)

def parse_proxy(self, url, orig_type):
proxy_type, user, password, hostport = _parse_proxy(url)
proxy_url = urlunparse((proxy_type or orig_type, hostport, '', '', '', ''))

if user and password:
user_pass = '%s:%s' % (unquote(user), unquote(password))
creds = base64.b64encode(user_pass).strip()
else:
creds = None

return creds, proxy_url

def process_request(self, request, spider):
if spider.name in self.proxy_spiders:
creds, proxy = self.proxy
request.meta['proxy'] = proxy
if creds:
request.headers['Proxy-Authorization'] = 'Basic ' + creds

然后再在你的settings.py里配置：
HTTP_PROXY='your_proxy'
PROXY_SPIDERS=[your_spider_names]

不过整体和你的思路一样

2014-08-26 22:04:09 +08:00

回复了 forever139 创建的主题 › 程序员 › [求助]关于 google play app 的分类问题

@wesley 感谢回复，你说的是测试应用内购买的那个吧，不过这个感觉也不能批量化，自动化，而且比较费时，属于我的第三种方案，而且第三种方案，很多只需要看应用截图，人就能判断。

1 2 3 4 5 6 7 8 9

❮

❯

关于 · 帮助文档 · 博客 · API · FAQ · 我们的愿景 · 实用小工具 · 801 人在线 最高记录 6543 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 31ms · UTC 21:21 · PVG 05:21 · LAX 14:21 · JFK 17:21
Developed with CodeLauncher
♥ Do have faith in what you're doing.