V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
SCaffrey
V2EX  ›  问与答

baidu 爬虫抓取的时候 gzip 没有生效

  •  
  •   SCaffrey · 2018-10-24 22:41:00 +08:00 · 1869 次点击
    这是一个创建于 2228 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有没有大佬知道是为什么啊…… 谢谢 >_<

    贴一下 nginx 的设置……

        gzip               on;
        gzip_vary          on;
    
        gzip_comp_level    6;
        gzip_buffers       32 8k;
    
        gzip_min_length    1000;
        gzip_proxied       any;
        gzip_disable       "msie6";
    
        gzip_http_version  1.1;
    
        gzip_types         text/plain text/css application/json application/x-javascript text/xml application/xml application/xml+rss text/javascript application/javascript image/svg+xml;
    

    在百度的站长工具-抓取诊断里看

    HTTP/1.1 200 OK
    Date: Wed, 24 Oct 2018 14:19:13 GMT
    Content-Type: text/html
    Content-Length: 1501880
    Connection: close
    Server: nginx/1.10.3 (Ubuntu)
    Last-Modified: Wed, 24 Oct 2018 13:20:29 GMT
    Vary: Accept-Encoding
    

    这个 Content-Length …… 有点迷

    https://varvy.com/tools/gzip/ 测试的结果

    Original size: 1501880
    Compressed size: 153241
    File reduced by: 1349 kb
    
    11 条回复    2021-07-05 04:24:36 +08:00
    Foxkeh
        1
    Foxkeh  
       2018-10-25 00:17:22 +08:00 via iPhone
    好像跟请求有关
    springmarker
        2
    springmarker  
       2018-10-25 00:45:13 +08:00 via Android
    是否用 gzip 也得看请求头啊
    SCaffrey
        3
    SCaffrey  
    OP
       2018-10-25 01:49:54 +08:00
    @Foxkeh @springmarker 请求头不受我控制吧( 难道我理解错了
    hundan
        5
    hundan  
       2018-10-25 01:54:04 +08:00 via Android
    @SCaffrey 如果爬虫请求头就写了不支持 gzip 服务器就不会返回压缩过的啊
    yangqi
        6
    yangqi  
       2018-10-25 01:55:36 +08:00
    你 gzip_types 里面也没有 text/html 啊,当然不生效了。
    SCaffrey
        7
    SCaffrey  
    OP
       2018-10-25 02:01:09 +08:00
    @yangqi #6 我理解它默认就有 text/html ?而且如果写进去会提示 nginx: [warn] duplicate MIME type "text/html"
    @also24 @hundan 我好像没表述清楚(?)百度爬我的站…… 我可以控制它的爬虫的请求头吗……
    also24
        8
    also24  
       2018-10-25 02:12:51 +08:00   ❤️ 1
    @SCaffrey #7
    我用百度的抓取工具抓我自己的站测试了一下,确实也是没有触发 gzip 的
    看起来应该是百度的爬虫的 request header 的问题
    SCaffrey
        9
    SCaffrey  
    OP
       2018-10-25 02:14:31 +08:00
    @also24 谢谢啦~
    zn
        10
    zn  
       2018-10-25 09:54:16 +08:00 via iPhone
    这是百度爬虫已经表明自己不接受 gzip,你还压缩个鬼啊。
    digglife
        11
    digglife  
       2021-07-05 04:24:36 +08:00
    挖个坟,2021 年了还是不支持 GZIP 。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2771 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 09:51 · PVG 17:51 · LAX 01:51 · JFK 04:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.