V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
huruwo
V2EX  ›  问与答

个人博客被采集站疯狂采集怎么办

  •  1
     
  •   huruwo · 2021-11-10 17:06:03 +08:00 · 3191 次点击
    这是一个创建于 1112 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我的个人博客文章被 类似 https://cxybb.com/ 程序员宝宝

    https://www.pianshen.com/ 程序员大本营

    这种网站实时更新 我发出来立马就更新上了

    而且他的 SEO 做的非常好 同样的文章排名比我还高

    实在是被恶心到了

    第 1 条附言  ·  2021-11-10 17:52:20 +08:00
    还有类似网站

    https://www.i4k.xyz/

    采用的模板都是一套的
    第 2 条附言  ·  2021-11-10 18:01:41 +08:00
    我发现一个更加神奇的网站

    把我刚发的中文博客直接翻译成英文的同步过去了

    https://programmer.group/
    26 条回复    2023-11-05 06:56:18 +08:00
    kimera
        1
    kimera  
       2021-11-10 17:09:34 +08:00 via iPhone
    搜索资料很多排名靠前都是这样的网站 已经把类似站点都加入黑名单了 太恶心了🤢
    bug123
        2
    bug123  
       2021-11-10 17:12:17 +08:00
    可以往里面塞点敏感的脏数据
    hidemyself
        3
    hidemyself  
       2021-11-10 17:13:26 +08:00
    有备案的采集站可以投毒
    没备案没办法,投毒也不管用
    clf
        4
    clf  
       2021-11-10 17:53:38 +08:00
    笑死了,底下还写着:网站内容人工审核和清理中!本站和 cxyzjd 等抄袭本站模板的网站没有任何关系,请注意分辨!
    WhateverYouLike
        5
    WhateverYouLike  
       2021-11-10 17:54:48 +08:00 via Android   ❤️ 1
    把自己名字和文章链接写到文章里面呀,免费给自己宣传
    clf
        6
    clf  
       2021-11-10 17:55:58 +08:00
    (为什么他还会爬 CSDN 的文章的呀,然后快进到 CSDN 去爬他的。
    huruwo
        7
    huruwo  
    OP
       2021-11-10 17:56:31 +08:00
    @WhateverYouLike 妙啊妙啊
    shiny
        8
    shiny  
       2021-11-10 17:57:20 +08:00
    把爬虫找出来
    - 注入狗屁不通文章生成器的数据
    - 试试文章正文里插入 xss
    clf
        9
    clf  
       2021-11-10 17:59:07 +08:00   ❤️ 1
    可以试一下发布后修改会不会再次同步文章。

    这样可以在发布的时候默认发布自己的支付宝红包码之类的推广类的东西,然后过 N 分钟后自动更新成自己的文章?
    zhuawadao
        10
    zhuawadao  
       2021-11-10 18:00:16 +08:00
    @WhateverYouLike 他去掉的话,你就写藏头诗类的
    supuwoerc
        11
    supuwoerc  
       2021-11-10 18:09:47 +08:00
    有盗版垃圾站抄你的博客,那你一定是个大佬,我的博客,得用 site:xxxxx 才能搜索到( o(╥﹏╥)o )
    loading
        12
    loading  
       2021-11-10 22:26:35 +08:00
    如果有人敢爬我的网站,我就敢投毒,p 站不是白上的。
    jason2014
        13
    jason2014  
       2021-11-10 23:01:38 +08:00
    @clf #9 用来对付这些垃圾站方法很好,可是这样可能会影响到 RSS 订阅用户。
    clf
        14
    clf  
       2021-11-10 23:25:21 +08:00 via Android
    @jason2014 rss 生成慢一点再生成呗。
    Pipecraft
        15
    Pipecraft  
       2021-11-10 23:45:33 +08:00
    pianshen 这个网站的百度权重是 6 ,好厉害!按照 #5 的思路,可以在文章里放链接,增加反链啊。楼主可以接单帮人推广了。
    patx
        16
    patx  
       2021-11-11 00:23:27 +08:00
    爬虫一般都用廉价主机商,或者阿里云腾讯云。机房的 ASN 一律屏蔽,增加爬虫成本。
    find456789
        17
    find456789  
       2021-11-11 00:27:41 +08:00
    @patx

    老哥, 机房的 asn 是什么意思, 方便展开说说吗, 我有个站,也老是被 爬
    cxy2244186975
        18
    cxy2244186975  
       2021-11-11 01:02:42 +08:00 via Android
    这种站 我已经在 v2 看到好几个人报道了~~~
    HankLu
        19
    HankLu  
       2021-11-11 01:33:40 +08:00
    诅咒他生儿子没屁眼
    terence4444
        20
    terence4444  
       2021-11-11 02:12:05 +08:00 via iPhone
    可以利用其更新原理投毒
    oo1
        21
    oo1  
       2021-11-11 02:21:58 +08:00 via iPhone
    让他来爬我!放开楼主!
    shuxhan
        22
    shuxhan  
       2021-11-11 08:42:06 +08:00
    @supuwoerc 你是不是在我身上装了监控?
    jasonkayzk
        23
    jasonkayzk  
       2021-11-11 09:34:54 +08:00
    @clf #6 递归了属于是 233
    Chipmunker
        24
    Chipmunker  
       2021-11-11 10:31:31 +08:00
    提个思路,不知道可行不。将文字内容加密,在客户端解密后转换为 SVG 图像显示。我想采集站应该不会专门针对你的站去破解了吧。
    imldy
        25
    imldy  
       2021-11-11 11:59:48 +08:00
    @Chipmunker #24 不利于搜索引擎
    kehan
        26
    kehan  
       2023-11-05 06:56:18 +08:00 via Android
    你可以做防采集设置,当然,你也可以用可汗采集插件,采集别人发的内容
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1405 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 17:36 · PVG 01:36 · LAX 09:36 · JFK 12:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.