学 python 遇到个问题

初学python，照网上爬虫教程练习，
网页来源编码如果是gb2312下面的代码就没问题，如果是utf8编码，就出现错误提示：
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)
请问我该如何处理呢
==============================
import HTMLParser
....................

request = urllib2.Request (Url)
m = urllib2.urlopen(request)
con = m.read()
my.feed(con)
==============================

编码

request

爬虫

8 条回复 • 2015-04-18 15:23:48 +08:00

vy0b0x

2015-04-18 03:13:40 +08:00

'awefa'.decode('utf8')

vimutt

2015-04-18 03:22:06 +08:00 via iPad

@vy0b0x 我试过con.decode('UTF8') 虽然不提示出错信息了但是htmlparser 却不输出对网页提取信息的内容但是gb2312的网页却可以正常提取

linkiosk

2015-04-18 07:25:43 +08:00 via Android

reload（sys）
设置默认编码

vimutt

2015-04-18 11:23:08 +08:00

@linkiosk 这个也试了设置默认编码为utf8 不提示出错了，但是htmlparser 依然不输出任何结果但是gb2312的网页却可以

vimutt

2015-04-18 12:22:16 +08:00

完整代码如下：我又用v2ex试了下虽然都是utf8编码，v2ex就可以输出结果，我想爬的这个站就不行麻烦各位帮忙看看：
# -*- coding:utf-8 -*-
import urllib2
import HTMLParser

class MyParser(HTMLParser.HTMLParser):

def __init__(self):
HTMLParser.HTMLParser.__init__(self)

def handle_starttag(self, tag, attrs):
if tag == 'a':
for name, value in attrs:
if name == 'href':
print value

my = MyParser()
Url = 'http://blog.sina.com.cn/s/articlelist_1743100694_0_1.html/'
Url2 = 'https://v2ex.com/'

print 'Url:',Url
request = urllib2.Request (Url)
m = urllib2.urlopen(request)
con = m.read()
my.feed(con.decode('utf-8'))

bugcoder

2015-04-18 14:29:09 +08:00

@vimutt
测试了一下，要去掉评论
pattern = r"<!.*>"
con = re.sub(pattern, '', m.read().decode('utf-8'))

vy0b0x

2015-04-18 14:56:45 +08:00

@vimutt v2ex能输出别的不能输出那就不是编码的事是解析器的事你换个解析器有个HTML5的解析器纯PYTHON实现的容错是现有最好的就是比较慢还有推荐用BEAUTIFULSOUP来做这事

vimutt

2015-04-18 15:23:48 +08:00

@bugcoder
@vy0b0x
感谢我去试试