首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Coding
V2EX  ›  问与答

写 packtpub 的爬虫时,碰到 post 无法成功获取的问题。内附福利给帮忙的朋友

  •  
  •   wzyefd · 2016-04-09 20:22:27 +08:00 · 1513 次点击
    这是一个创建于 1342 天前的主题,其中的信息可能已经有所发展或是发生改变。

    packtpub 在线看体验不是很好,网速慢,所以想爬下来放 ipad 上面慢慢看。订购了一个月的服务,在写爬虫的时候,碰到一个问题。

    在 chrome 里面获取到 post 的 header , cookie ,和 post 去的 data 。

    然后把这些字段放入 postman 里面模拟 post 请求发送给 packtpub 。但是每次都无法正常获取数据,提示 invalid token 。请各位帮忙。

    我的操作是具体点开一本书,就是你能够看到书的详细内容了。从 chrome 里面的 审查元素-->network-->过滤出 auth 这个 http 请求,把 request headers 里面的所有字段 bulk edit 进 postman 的 headers (当然这个里面有重要的 cookie 值),然后把 Request payload 里面要发送的数据也 bulk edit 进 postman 里面的 body 选项卡。

    照理说这样应该可以获得和浏览器里面一样的 response 才对啊。

    各位可以做个测试,看看是什么原因。

    测试账户: [email protected] / 密: 1qaz2wsx3edc

    希望各位拿了福利帮个忙。

    4 回复  |  直到 2016-04-09 22:23:58 +08:00
        1
    UnisandK   2016-04-09 20:34:32 +08:00
    是不是 CSFR ,每次请求 token 都在变的
        2
    wzyefd   2016-04-09 20:37:54 +08:00
    @UnisandK token 和 cookies 里面的 token 是一样的,每次都没有变化
        3
    nisekoi   2016-04-09 21:49:05 +08:00
    模拟登陆吗,参考一下
        4
    wzyefd   2016-04-09 22:23:58 +08:00
    @nisekoi 模拟登录是可以的,我用 scrapy 也实现,问题就是返回的 response 里面的 cookies 比浏览器里面的 cookies 少很多,所以我就直接把浏览器里面的 cookies 放入 request 的 headers 里面了。我说的无法获取的是具体的页面内容。

    比如:

    Request URL:https://www.packtpub.com/packt-lib-reader-api/global/auth
    Request Method:POST

    然后我附上了 cookies ,这里略去。
    最后加上 request data :
    {"token":"3bc5e840b2aef1b2284aa352795858af1540b086","additional_variables":{"nid":"24519","isbn":"9781785882951","url":"isbn=9781785882951&chapter=2&section=ch02lvl1sec14&section_name=NumPY"},"additional_calls":["books_saveRead"]}

    这个就无法获取争取的值
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4118 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 239ms · UTC 07:55 · PVG 15:55 · LAX 23:55 · JFK 02:55
    ♥ Do have faith in what you're doing.