V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
latent
V2EX  ›  Python

如何有效识别黑链。

  •  
  •   latent · 2016-08-04 09:36:56 +08:00 · 3767 次点击
    这是一个创建于 3035 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近,在写网站黑链识别,但是对于各种网站的链接,怎样有效地能够识别出,该 href 就是黑链,或者减少误报率,各位老司机有没有各种好姿势。

    8 条回复    2016-08-04 17:04:37 +08:00
    qqpkat2
        1
    qqpkat2  
       2016-08-04 09:46:31 +08:00
    这很难识别,黑链直接加到你正常的友情链接那里去,你怎么识别
    要么就看过滤黑链的关键字,比如什么私服啊,不孕不育啊
    曾经黑了几百网站放黑链的路过。
    xhowhy
        2
    xhowhy  
       2016-08-04 10:02:11 +08:00
    黑链现在也不必隐藏了
    latent
        3
    latent  
    OP
       2016-08-04 11:06:39 +08:00
    @qqpkat2 是阿,想法也是关键字,可是没关键字,根本就很难分辨是不是黑链阿
    SlipStupig
        4
    SlipStupig  
       2016-08-04 13:36:19 +08:00   ❤️ 2
    @latent 之前做过类似的挂马检测,不知道你是本地还是远程,远程麻烦一点,我说一下之前检测挂马的方法:
    1.优先检测外链,本地样本算一个模糊 hash ,再比对远程下载的内容如果比对成功,就是被黑了
    2.基于 url 参数测试,很多做挂马会判断你的浏览器版本,根据这个去模拟不同参数输出结果(容易误报),还是要检测差异有多大,比如用普通参数访问没内容,如果用 baidu spider+这个 ua 头就会跳转,这个一定有问题
    2.基于模板聚类去识别(很多都是动态文件),但是里面的 css 布局和元素分布是相同的,可以做一个有效识别(其实就是那么几票人干的,需要一定的样本做 k-mean )
    3.基于链接相似度抓取网页,跟当前 url 参数差异很大的,比如某网站都是:/index.php?mode=page&number=1 这种有 990 个,突然出现了一个:/hack/hack.html ,这个链接可以报可疑,然后结合关键字(很多都是广告联盟的,可以分析一下这类特殊链接是否是网站联盟)
    4.开沙盒行为检测,模拟浏览器去访问,然后根据规则分析沙盒内的异常行为(估计你用不到)
    qqpkat2
        5
    qqpkat2  
       2016-08-04 14:10:40 +08:00
    @latent 代码检查也是可以的
    隐藏的,通过 js 的 document.write 的,绝对坐标超出屏幕范围的
    imn1
        6
    imn1  
       2016-08-04 14:14:22 +08:00
    你是拉登还是蓝灯?
    想知道你对黑链如何定义,这个决定范围
    ershisi
        7
    ershisi  
       2016-08-04 15:04:29 +08:00
    链接的颜色判断 /链接的位置判断。 head foot 里的链接判断。另外,各种脚本下现在的黑链不应该是判断爬虫然后再展现了吗?
    tSQghkfhTtQt9mtd
        8
    tSQghkfhTtQt9mtd  
       2016-08-04 17:04:37 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5370 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 09:37 · PVG 17:37 · LAX 01:37 · JFK 04:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.