爬豆瓣相册遇到 403，伪装浏览器不成功，呼叫总部...

	opener = urllib2.build_opener()
	opener.addheaders = [('User-Agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/39.0.2171.65 Chrome/39.0.2171.65 Safari/537.36')]
	html = opener.open(url).read()

view raw gistfile1.txt hosted with ❤ by GitHub

第二种：

	headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/39.0.2171.65 Chrome/39.0.2171.65 Safari/537.36'}

	req = urllib2.Request(url, headers=headers)
	html = urllib2.urlopen(req).read()

view raw gistfile1.txt hosted with ❤ by GitHub

还是返回403，请问哪里出错了？

全部代码：

	#coding:utf-8
	import urllib2
	import re
	import urllib
	import os

	url_list = [
	'http://www.douban.com/photos/album/32276368/?start=%d',
	'http://www.douban.com/photos/album/59507212/?start=%d'
	]

	page_list = [8, 8]

	folder_list = [u'建筑', u'文字']

	re_pic = re.compile(r'<div class="photo_wrap">.+?<img src="(.+?)" />', re.DOTALL)

	# fake webbrower
	headers = {
	'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/39.0.2171.65 Chrome/39.0.2171.65 Safari/537.36'
	}




	# main py
	for i, j, g in zip(url_list, page_list, folder_list):
	if not os.path.exists(g):
	os.mkdir(g)
	os.chdir(g)
	for k in range(0, j):
	url = i % (k*18)
	opener = urllib2.build_opener()
	opener.addheaders = [('User-Agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/39.0.2171.65 Chrome/39.0.2171.65 Safari/537.36')]
	html = opener.open(url).read()
	pics = re_pic.findall(html)
	for h in pics:
	if 'thumb' in h:
	h = h.replace('thumb', 'photo')
	pic_name = h[47:]
	if not os.path.isfile(pic_name):
	urllib.urlretrieve(h, pic_name)
	print 'Download ' + pic_name + ' succeed!'
	print 'folder: ', g , ' page: ', k, '/', j, 'Done!'
	os.chdir("..")

view raw gistfile1.py hosted with ❤ by GitHub

第 1 条附言 · 2015-03-24 13:22:46 +08:00

又可以了，不知道是什么回事....抓狂.....

第 2 条附言 · 2015-03-25 08:24:38 +08:00

谢谢大家的指点，就不一一回复了，不过都点了感谢。
v2ex大家都很热心啊，非常感谢。

req

khtml

X11

39 条回复 • 2015-03-25 10:52:19 +08:00

xiaogui

2015-03-24 12:20:09 +08:00

抓的频率太快了吧

jarlyyn

2015-03-24 12:26:15 +08:00

没用python写过爬虫。

但是伪装浏览器，

首先是不是考虑有cookie?

其次是否考虑支持js的库？

第三是不是踩到了陷阱链接？

当然频率也是个问题。

jarlyyn

2015-03-24 12:28:52 +08:00

对了，还有reference_url?

我记得当时是用chrome开network页，然后把所有的header都copy了一遍。

messense

2015-03-24 12:37:34 +08:00

用 requests 吧..... urllib2 太难用了。

豆瓣反爬虫机制比较厉害，用很多代理 ip 去抓比较有效。ban 了就换代理。

terrychang

2015-03-24 12:40:46 +08:00

带上cookie看看

alangz

2015-03-24 12:43:00 +08:00

我抓取豆瓣小组内容的时候也是403，但是添加了UserAgent之后就可以了。不知道你为何不可以，当然用的时java。

dedewei

2015-03-24 12:48:13 +08:00

@jarlyyn 试过把所有header除了cookie都copy一遍，也不行。添加了Referer也还是不行。

小白，现在目标是先把脚本运行起来。所以cookie等知识打算一边学一边补。非常感谢你的回答。

dedewei

2015-03-24 12:51:41 +08:00

@terrychang 非常感谢，带上cookie运行成功了

dedewei

2015-03-24 12:53:18 +08:00

@messense 谢谢给的建议

dedewei

2015-03-24 12:57:02 +08:00

@terrychang 运行了两分钟.....又403了.....

dedewei

2015-03-24 12:58:56 +08:00

@terrychang
@messense
@jarlyyn 我想问的是，是不是如果上面模拟浏览器的步骤不出错，就肯定能继续爬？还是说上面即使模拟浏览器成功了，依然有其他方式导致403？

xiaogui

2015-03-24 13:00:39 +08:00

@dedewei “运行了两分钟.....又403了.....”主要是频率了吧

dedewei

2015-03-24 13:06:03 +08:00

@xiaogui 会不会是之前ip被屏蔽，等了很久，添加cookie再试的时候刚好解封了，所以才运行了几分钟？频率是设置爬取的时间间隔？爬一个网页等5秒这样子？我试试。

xiaogui

2015-03-24 13:07:37 +08:00

@dedewei 刚开始封，都是比如封你几分钟，但是抓取频率过高的话，这个时间会指树上升的。

dedewei

2015-03-24 13:09:28 +08:00

@dedewei 尝试了下，直接urllib2.urlopen(url)都返回403，应该不是频率问题吧

dedewei

2015-03-24 13:13:03 +08:00

@xiaogui 我好像理解错你说的频率了？

terrychang

2015-03-24 13:22:49 +08:00

不知道你带的是不是登录会员的cookie。
登录你的豆瓣帐号，然后用firebug导出你的cookie试试。

lerry

2015-03-24 13:33:27 +08:00

既然是伪装浏览器，就要尽可能的像浏览器一样
使用 requests.Session 把浏览器的headers都带上，能应付大部分网站，有的要有Referer，有的要js执行了才行，就用 phantomjs
理论上爬虫是防不住的，顶多是会限制频率罢了，这时侯你可以找一堆匿名代理

hp19890515

2015-03-24 13:47:23 +08:00

之前做了个简单的爬虫爬大众点评的商户，也有这种情况，试了几次之后知道是频率的问题，于是每次403的时候就休息一会儿，每隔2分钟再尝试，等不403的时候就又继续运行了

liyaoxinchifan

2015-03-24 13:52:22 +08:00

多ip才是王道

em70

2015-03-24 13:54:27 +08:00

豆瓣早就用频率监控了,经过测试,一分钟40次是临界点,抓一个等1秒就肯定没问题

fork3rt

2015-03-24 13:58:57 +08:00

为什么不使用 requests + beautifulsoup ?

vjnjc

2015-03-24 14:11:57 +08:00

挺好玩的,楼主你的程序借我用用啊,据说豆瓣里有很多隐藏的美女,顺便学学python ^^

caoz

2015-03-24 16:28:37 +08:00

使用豆瓣的 API (http://developers.douban.com/wiki/?title=photo_v2), 使用豆瓣客户端用的 apikey, 怎么抓也不会被封~

e.g. http://api.douban.com/v2/group/taotaopaoxiao/topics?alt=json&apikey=08f332d3675ca9d71ad9987a3615fd85

happywowwow

2015-03-24 16:37:56 +08:00

http://www.douban.com/group/haixiuzu/
请不要害羞
以前写过爬这个的
hhh

muyi

2015-03-24 17:06:58 +08:00 via Android

模拟容易造成IP被封，如楼上所提到的，用官方客户端的apikey，使用api来爬

AnyOfYou

2015-03-24 17:12:41 +08:00

http://doc.scrapy.org/en/0.24/topics/practices.html#bans
Scrapy 的文档中有一点关于如何防治爬虫被 Ban 的方法：

rotate your user agent from a pool of well-known ones from browsers (google around to get a list of them)
disable cookies (see COOKIES_ENABLED) as some sites may use cookies to spot bot behaviour
use download delays (2 or higher). See DOWNLOAD_DELAY setting.
if possible, use Google cache to fetch pages, instead of hitting the sites directly
use a pool of rotating IPs. For example, the free Tor project or paid services like ProxyMesh
use a highly distributed downloader that circumvents bans internally, so you can just focus on parsing clean pages. One example of such downloaders is Crawlera

justlikemaki

2015-03-24 17:34:46 +08:00

..我遇到过网站故意返回错误代码，然后还返回页面代码的。

darmody

2015-03-24 18:49:09 +08:00

看你的代码没有加延时之类的东西，估计是抓取频率的问题

aliao0019

2015-03-25 00:39:38 +08:00 via iPad

注意豆瓣的 header 里面的 bid

aliao0019

2015-03-25 00:41:48 +08:00 via iPad

@aliao0019 headers

dedewei

2015-03-25 08:20:03 +08:00

@terrychang 没看懂，不过谢谢，以后遇到再试试

dedewei

2015-03-25 08:22:49 +08:00

@lerry lxml and Requests 似乎大家都在推荐这样，继续学习。谢谢指点！

dedewei

2015-03-25 08:28:22 +08:00

@caoz 多谢，当时顺手google了下，没找到，就放弃了。还没用过api，打算这就试试。非常感谢。

dedewei

2015-03-25 08:29:02 +08:00

@happywowwow 哈哈哈〜，提供很好的素材，这就爬去！！！！！！！！！！

dedewei

2015-03-25 08:30:24 +08:00

@AnyOfYou mark.....等再熟练点再好好看看......

lerry

2015-03-25 09:56:26 +08:00

@dedewei 我用的PyQuery，可以像jQuery一样操作dom元素，很方便

penjianfeng

2015-03-25 10:00:41 +08:00

@happywowwow 进去看了下，终于明白为何以前他们说douban才是大黄了-_-||

zjuster

2015-03-25 10:52:19 +08:00

豆瓣的反爬虫机制都是被你们逼的..haha 请不要误会，我并没有恶意..