感觉写这次电信网上营业厅的爬虫,把坑踩了个遍,还是不能完美解决各种问题。
通过抓包,整个登陆过程中的 http 的详细过程,大致如下
——————————————————
*0.LoginURL
*1.POST|(LoginServlet) --------- 登陆 form --------- referer:0.LoginURL--------- status_code:200
*2.POST ---------SSORuquetXML --------- refererr:LoginServlet ---------location:3--------status_code:302
*3.GET --------- referer:LoginServlet ---------location:4--------- status_code:302
*4.GET ---------referer:LoginServlet --------- location:5 --------- status_code:302
*5.GET --------- referer:LoginServlet --------- status_code:200
*6.GET ---------acount/init.action --------- referer:5
—————————————————— 我遭不住了。。。
1.XML 格式怎么 post , python 实现(是以字典格式,百度了发现都是解析 xml 文件之类的)?
2.XML 中有些 ID 参数是怎么生成的(审查元素,并没有相关的 JS 进行处理),我比对了不同账号,发现就一些 ID 参数不同?
3.在 request.session()中, cookies 并不能自动管理?(浏览器抓包是很多 cookies ,而代码实现,只有一条或者没有 Cookies )
再踩几个坑,再解决不了。。。我就放弃,感谢大家最近几天的耐心解答
1
Huayx9 OP 在 post 操作之后,后面如果有重定向,能由 reuqests 自动完成
|
2
Huayx9 OP 我是傻逼。。你们别回复我
|