在只知道用户名的情况下,抓取这个用户名下的所有的微博
1
Hello1995 2016-09-05 22:42:31 +08:00 via iPhone
可以换个思路,去爬微博档案, 233
|
2
herozzm 2016-09-05 22:55:41 +08:00 via Android
注册用户关注他,让爬虫模拟登录后爬起来
|
3
UnisandK 2016-09-05 23:14:40 +08:00
记得是不是翻不到那么后面,接口也有限制
|
4
ooh 2016-09-05 23:44:21 +08:00
如果只是一个人的话 lz 可以看看我以前的笔记 [点我]( http://blog.jjyy.me/2015/10/11/weibo-text-analysis/),自己改一下应该很快
登陆已经坏了,现在都带验证码了, cookiejar 你得先在浏览器里面登陆获取到 weibo.cn 域下面的 cookie ,只需要 SCF SUB 这俩个就可以了 ![]( ) 我自己跑了一下,目前几百页还没触发限制条件 ![]( ) |
5
slysly759 2016-09-06 12:04:28 +08:00 via Android
我原来写过,只需呀 UID 就行了,然后可以爬取全部微博, text 和图片是分开放的
|
6
macwhirr 2016-09-06 17:19:24 +08:00
很简单。
|
10
Qiangyuan OP @ooh
root@johnnyding-Inspiron-3437:/home/johnnyding/文档 /2017-interview/test# python test.py Traceback (most recent call last): File "test.py", line 19, in <module> main() File "test.py", line 13, in main data = w.get_info(url) File "/home/johnnyding/文档 /2017-interview/test/weibo.py", line 102, in get_info data['page'] = int(soup.find('input', {'name': 'mp'}).get('value')) AttributeError: 'NoneType' object has no attribute 'get' 这个错是什么? |
11
ooh 2016-09-07 23:30:46 +08:00
|
13
slysly759 2016-09-13 09:58:50 +08:00
@Qiangyuan 哈哈 可以啊~
https://github.com/songluyi/slylearnpython 在里面有,记得把 cookie 换掉 一个 cookie 一般持续 20 分钟的样子 你用 weibo.cn 的获取登陆页 cookie 就行,如果好用麻烦点个赞蛤~写的通俗易懂 |