V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
RickyC
V2EX  ›  问与答

百度蜘蛛抓取我们网站, 网址却包含他人的域名, 是为什么

  •  
  •   RickyC · 2020-11-26 13:15:34 +08:00 · 2199 次点击
    这是一个创建于 1462 天前的主题,其中的信息可能已经有所发展或是发生改变。

    2020-11-26 01:04:44 GET / s=www.yidianxueche.cn 80 - 27.159.78.41 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 130

    2020-11-26 01:04:44 GET / s=www.sw-jewelry.cn 80 - 27.159.78.40 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 142

    2020-11-26 01:04:46 GET / s=www.lyjzfw.cn 80 - 27.159.78.50 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 138

    2020-11-26 01:04:47 GET / s=www.longdugame.cn 80 - 27.159.78.52 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 141

    以上是一些抓取记录, 百度都在我们网站的根目录加上了 s=别人的域名, 如 www.xxx.com/s=www.longdugame.cn 而且还很多 这是什么原理? 在我们网站的代码里并找不到这些域名

    14 条回复    2020-11-26 23:50:38 +08:00
    RickyC
        1
    RickyC  
    OP
       2020-11-26 13:16:38 +08:00
    # V2EX 是否支持 markdown?

    ## 看看
    itskingname
        2
    itskingname  
       2020-11-26 13:45:46 +08:00
    这是一种常规的刷排名的手段。你以 『你的域名 /s=别人的域名』在百度上搜索一下看看。他们通过这种方式把自己网站的排名往上刷。
    oott123
        3
    oott123  
       2020-11-26 14:18:12 +08:00
    27.159.78.50 中国 福建 厦门 chinatelecom.com.cn

    看上去不像是合法的百度蜘蛛的 IP
    RickyC
        4
    RickyC  
    OP
       2020-11-26 14:24:25 +08:00
    @itskingname 那有什么解决的方法吗? 百度是怎么得到这些网址的?
    RickyC
        5
    RickyC  
    OP
       2020-11-26 14:25:05 +08:00
    @oott123 UA 都写了是 baiduspider
    oott123
        6
    oott123  
       2020-11-26 14:27:10 +08:00   ❤️ 1
    @RickyC UA 写了 baiduspider 不代表它就是真的百度蜘蛛,就像我声称我有一百万不代表我真的有一百万一样。
    Rxianbei
        7
    Rxianbei  
       2020-11-26 14:32:46 +08:00 via Android
    @RickyC 楼主对 HTTP 协议没有基本的了解啊,ua 头是自定义的,你想改成什么都可以,你甚至可以改成 baidudasabi
    Xusually
        8
    Xusually  
       2020-11-26 14:34:59 +08:00
    1 、国际上的一些搜索引擎有自己的 spider ip 段公布的,百度暂时没有官方的查询公布,但是可以通过 ip 反查 ptr 来看是不是百度的蜘蛛
    2 、UA 可以随便伪造
    3 、你贴的这种行为是标准的恶意辣鸡 seo,还有往你的搜索接口灌各种辣鸡 url 和关键词的恶意搜索等等
    westoy
        9
    westoy  
       2020-11-26 14:58:36 +08:00
    这是面向站长打广告的

    主流蜘蛛的 IP 都可以反查的

    蜘蛛可能会用非标 IP 去检测站长有没有面向引擎针对性吐数据 SEO, 但这时候也不会挂爬虫自己的标准 UA
    007yxc
        10
    007yxc  
       2020-11-26 17:19:32 +08:00
    我 tm 在工位点了你的链接,我靠- - 还好我手速快关掉了。。。。
    RickyC
        11
    RickyC  
    OP
       2020-11-26 21:40:46 +08:00
    @Xusually 我发的如果不是真正 baiduspider, 那别人刷这些网址的意义是什么?
    Xusually
        12
    Xusually  
       2020-11-26 21:47:33 +08:00
    @RickyC 恶意的 SEO,举个其中一种简单的例子,假如你的系统有一个搜索功能,那么对方把自己的垃圾信息,比如自己的辣鸡站点的域名、关键字什么的他想 seo 的东西,提交给你的搜索系统。那么有机会你的搜索系统会统计用户搜索的关键字,把他大量提交的辣鸡关键字当作用户的搜索意图,提升了权重,或者进入类似于热搜榜之类的东西。
    id7368
        13
    id7368  
       2020-11-26 23:35:55 +08:00 via iPhone
    nslookup 百度蜘蛛 ip 如果返回的地址带百度域名就是真蜘蛛 反之也是假冒的 可以将 ip 封锁
    opengps
        14
    opengps  
       2020-11-26 23:50:38 +08:00
    可能不是真爬虫,而是用来想你打广告的机器人干的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4881 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 09:58 · PVG 17:58 · LAX 01:58 · JFK 04:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.