V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
apley
V2EX  ›  问与答

关于爬虫爬取网站音频的问题

  •  
  •   apley · 2020-12-01 22:27:26 +08:00 · 1381 次点击
    这是一个创建于 1482 天前的主题,其中的信息可能已经有所发展或是发生改变。

    http://www.2uxs.com/youshengxiaoshuo/12999/ 直接给出例子,我在测试的时候发现他调用的.m4a 文件后面跟了一个 get 参数,每次不一样,但是每次访问都给出是不存在的页面,jplayer 大佬们有么有研究的

    6 条回复    2020-12-02 14:54:13 +08:00
    siknet
        1
    siknet  
       2020-12-01 22:35:16 +08:00 via Android
    防盗链的
    imdong
        2
    imdong  
       2020-12-01 22:44:28 +08:00   ❤️ 1
    没啥特别的,他会加载一个 /player/12999/121/37272.html 页面,这个页面里面有对应的 m4a 文件地址,包含这个 key 。

    但是是一段经过随机变量名处理过的,而且每次格式还不太一样。

    但是总归还是好弄,最后得到的 m4a 带上 这个页面的来路即可获取到。
    apley
        3
    apley  
    OP
       2020-12-02 07:55:00 +08:00 via iPhone
    @imdong 页面的来路?你指的是 xff ?
    ybnsjl
        4
    ybnsjl  
       2020-12-02 09:27:39 +08:00
    charles 抓包搜索 key 的值,原来的 html 页面(如 http://www.2uxs.com/player/12999/122/37272.html ) 51 行附近有一个`mp3:''+PlayxC1Hrynp+'/都市言情 /我的老千江湖 /0001.m4a?key=5995691b59f6a222c5e7373e627b30e0_1606871504'`的值,正则提出来就好了
    zzz686970
        5
    zzz686970  
       2020-12-02 09:38:30 +08:00
    @apley 你的请求 header 带上 Referer 就可以了,这个表示你是从这个页面访问过来的。
    apley
        6
    apley  
    OP
       2020-12-02 14:54:13 +08:00 via iPhone
    感谢老哥们,总结一下,就是在跳转页面抓取到随机的 key 然后加 Refere 去请求就行
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6008 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 02:04 · PVG 10:04 · LAX 18:04 · JFK 21:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.