V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
im67
V2EX  ›  Python

灯塔国的爬虫也是在走钢丝~

  •  
  •   im67 · 2019-07-21 21:19:37 +08:00 · 4781 次点击
    这是一个创建于 1740 天前的主题,其中的信息可能已经有所发展或是发生改变。

    观纪录片<互联网之子>有感.盗版,非法入侵计算机,是爬虫行为绕不开的罪名

    观影链接 :http://open.163.com/movie/2015/8/O/M/MB0JQB7H7_MB1EF3EOM.html

    12 条回复    2019-07-22 09:04:50 +08:00
    hwdef
        1
    hwdef  
       2019-07-21 22:12:11 +08:00
    互联网之子的情况太极端了。名人,大量数据,敏感数据,又被钓鱼执法,同时他还是个要脸的人,死不认罪,只能自杀了。只能说太理想主义,同时也太极端了。
    但是我也敬佩这种精神。
    im67
        2
    im67  
    OP
       2019-07-21 22:27:26 +08:00
    @hwdef 一个人对抗巨大的利益集团和 zf,强度太大,即使名人也对付不过来.
    mytsing520
        3
    mytsing520  
       2019-07-21 22:35:40 +08:00
    换做是我,我也不希望我的个人资料或作品在网上被疯传
    richangfan
        4
    richangfan  
       2019-07-21 22:54:09 +08:00
    《网络爬虫从入门到入狱》,没毛病。robots.txt 不只是 txt
    idcspy
        5
    idcspy  
       2019-07-21 23:11:53 +08:00
    作为黑客,他的脸皮要厚点,同时,可以建立新模式的,没必要正面肛。
    iPhoneXI
        6
    iPhoneXI  
       2019-07-21 23:19:05 +08:00 via Android
    佩服这位,但是真没必要……
    VDimos
        7
    VDimos  
       2019-07-21 23:28:57 +08:00 via Android
    爬虫写得好,监狱蹲得早。
    misaka19000
        8
    misaka19000  
       2019-07-21 23:29:15 +08:00
    每次看这个都忍不住黑一下 MIT
    ryd994
        9
    ryd994  
       2019-07-22 00:39:44 +08:00 via Android
    还是不一样的
    你可以爬一般的美国网站,正常范围内没什么大问题

    他是依托自己的网络,下载大量学术期刊。学术期刊不是免费,而是学校出钱买的。出版商肯定不乐意啊。

    其实就是出版商玩不起了,吃相难看

    本来是希望以版权相关罪名指控他,但是因为他被捕时没有传播过相关内容,所以只能换个罪名。
    ryd994
        10
    ryd994  
       2019-07-22 00:55:22 +08:00 via Android   ❤️ 2
    @idcspy 请不要侮辱黑客。不要脸的是 cracker 不是 hacker。
    正是因为坚信理想,自由,他才成为了一个 hacker。如果却被利益集团以这样荒谬的罪名定罪。他对整个社会都失望至极。
    他爬 jstor,目的并不是盗版获利,而是提出抗议。各类学术论文,明明原作者是教师学生,为什么出版商收取这么高的费用,还不给原作一分钱稿费?想出版要给钱,想阅读又要给钱,你出版商两边吃。

    The panel reported that MIT had not supported charges against Swartz and cleared the institution of wrongdoing.
    其实 MIT 倒也没有再补刀。但是 MIT 作为学术机构,也没办法和出版商翻脸。否则将来别说 jstor,其他任何出版社都不会给 MIT 授权,也不会给 MIT 学生发表。
    ericgui
        11
    ericgui  
       2019-07-22 06:42:39 +08:00
    老铁,美国打官司很贵的,除非你造成很大损失,否则不会上法庭的。

    这哥们是破解了人家的数据库,有点类似现在的 sci-hub,这种“爬虫”当然是非法的。

    现在各国已经开始对这种不合理现象做出回应了。

    不要觉得技术能解决一切问题。
    est
        12
    est  
       2019-07-22 09:04:50 +08:00
    这个。。别人是加了权限认证收费体系的,只是学校 ip 允许随便下把这个买单了。。慷他人慨。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4273 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 53ms · UTC 01:02 · PVG 09:02 · LAX 18:02 · JFK 21:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.