V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  imlonghao  ›  全部回复第 50 页 / 共 58 页
回复总数  1144
1 ... 42  43  44  45  46  47  48  49  50  51 ... 58  
2014-12-31 21:07:09 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
@binux
您看看吧。那这样的话要导出数据只能通过db那里来导?打算换去mysql好导出一下..
另外,我爬京东的时候用35/30这样来爬,算是快么?
2014-12-31 20:57:11 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
@wangfeng3769
我刚刚说了我并没有爬不同地区的商品情况,我的VPS是日本的,所以只能爬了北京的情况。

不过我还是根据你的需求看了看京东的设计,大概能满足你的有求了。

商品页:
天津 > 东丽区 > 全境
provinceId=3 天津
cityId=51035 东丽区 | cityId=51042 静海区 | 等等...
countryId=39620 全境

其中,countryId默认天津都是全境,不需要另外设置,只需要设置cityID和provinceId即可。

想要看那个地区的库存情况,爬虫的时候设置不同天津(provinceId=3)地区的cityID即可。

我所贴的代码:
self.crawl(urljoin(each.attr.href,'?=').replace('?=',''), callback=self.in_page)

你要看天津的,就可以改成:
self.crawl(urljoin(each.attr.href,'?province=3&cityID=51042'), callback=self.in_page)

等等,其他自己发挥
2014-12-31 20:44:14 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
@wangfeng3769 我只是爬了商品的名称、分类以及价格,没有爬有没有货这个..
@virusdefender 我就说你的ID怎么那么熟悉 哈哈
2014-12-31 20:37:02 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
root@pyspider:~# wget 127.0.0.1:5000/results/dump/jd.json
--2014-12-31 20:31:43-- http://127.0.0.1:5000/results/dump/jd.json
Connecting to 127.0.0.1:5000... connected.
HTTP request sent, awaiting response...

就这样就不动了,我记得如果是流式输出的话wget不是这样的..
2014-12-31 20:29:56 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
@binux 可能是这个的问题吧,前面有nginx和varnish,我试一试直接下载:5000的看看
可能吧 因为我昨天似乎看到v2ex有说解封得了
你可以看看昨天的帖子
我已换fastmail,这几天没上
pop3 imap 协议被封而已
邮件不能收发指的是在国内不爬墙不能用客户端收发邮件
不是这个发不了收不了
是另外一个发不了收不了
@Hoshi
@hjc4869
在中国大陆无法使用相关客户端收发Gmail的邮件
@hjc4869 目前邮件互发还是可以的吧,只是你在里面收不到和发不出去,但是邮件Gmail收到了
2014-12-28 13:37:30 +08:00
回复了 czz811 创建的主题 Google Gmail 被盾了,有必要换邮箱不?
已经换了,Fastmail,60天后转为付费用户
2014-12-28 11:07:01 +08:00
回复了 aheadlead 创建的主题 问与答 何时能注册到 forever 后缀的域名
自定义后缀还是想太多
2014-12-28 10:57:29 +08:00
回复了 hansnow 创建的主题 问与答 Nginx 下 SSL 配置问题
如果你只有
KEY
CSR
的话,
那证书貌似根本就没有给你签发下来
2014-12-28 10:55:30 +08:00
回复了 hansnow 创建的主题 问与答 Nginx 下 SSL 配置问题
Google please

@Livid
2014-12-28 10:54:52 +08:00
回复了 undozen 创建的主题 分享创造 如果你的项目决定不支持 IE 6789,可以放个 modal 提示
本身已经关掉这个页面了,突然看到推荐360,特意过来Block
2014-12-28 09:21:57 +08:00
回复了 imlonghao 创建的主题 V2EX 社区头像与 gravatar 的问题
@Livid 所以我还是需要在v2ex设置一次?
1 ... 42  43  44  45  46  47  48  49  50  51 ... 58  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2368 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 15:40 · PVG 23:40 · LAX 07:40 · JFK 10:40
Developed with CodeLauncher
♥ Do have faith in what you're doing.