随便找个微博的页面 比如: https://weibo.com/u/2850809427
调出 F12 代码检查器,可以看到正常的 html 代码
但是在页面上直接右键查看源代码,都是乱码呀……
求问,怎么才能获取这些正常的 html 代码,不然爬虫不知道怎么做了。。。
1
musclepanda OP 右键查看的源代码:
F12 检查器看的代码 |
2
poorcai 2018-06-17 20:42:09 +08:00 1
那只是没有格式化吧。。。
|
3
musclepanda OP @poorcai 不懂,请多多指教
|
4
levywang 2018-06-17 20:43:34 +08:00 via Android
|
5
cydian 2018-06-17 20:44:47 +08:00 via Android
楼主没有认真比对代码吧。
一个格式化一个没有。。。 对爬虫又不影响。 感觉新浪微博压缩了代码,不仅起到了节约网络流量的目的(以及其他的目的),还起到了防止低级爬虫来偷窥的作用 |
6
airyland 2018-06-17 20:52:01 +08:00 via iPhone
建议爬手机站,直接 json 数据
|
7
qiayue 2018-06-17 20:58:50 +08:00
楼主两个截图都不是同一个地方,怎么对比
|
8
tuwulin365 2018-06-17 21:04:20 +08:00
不要爬煎蛋
|
9
zhengjian 2018-06-17 23:41:30 +08:00
m.weibo.cn/beta
抓网络请求 |
10
JCZ2MkKb5S8ZX9pq 2018-06-18 00:45:44 +08:00
优先搞 json 没有再拆 html
|
11
opengps 2018-06-18 05:38:13 +08:00 via Android
仅仅是没格式化
|
12
alvin666 2018-06-18 08:58:47 +08:00 via Android
这两个不是一样的吗。。。这也叫乱码啊,那不知道以后你遇到编码问题是不是会觉得电脑中毒了
|