V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
777777
V2EX  ›  程序员

小组长因为预算问题不想购买第三方 API,让我写爬虫。

  •  
  •   777777 · 2021-11-02 14:52:46 +08:00 · 9254 次点击
    这是一个创建于 1108 天前的主题,其中的信息可能已经有所发展或是发生改变。

    使用了代理池,会被发现吗?

    67 条回复    2021-11-10 17:27:54 +08:00
    find456789
        1
    find456789  
       2021-11-02 14:55:05 +08:00
    爬哪个网站呀
    czfy
        2
    czfy  
       2021-11-02 14:55:14 +08:00   ❤️ 4
    取决于你爬什么
    777777
        3
    777777  
    OP
       2021-11-02 14:57:50 +08:00   ❤️ 1
    爬企业信息网站,具体就不透露了,禁止🎣
    shuxhan
        4
    shuxhan  
       2021-11-02 15:01:45 +08:00
    盲猜企查查
    SingeeKing
        5
    SingeeKing  
       2021-11-02 15:07:40 +08:00   ❤️ 8
    中华人民共和国反电信网络诈骗法(草案)第十二条:任何单位和个人不得非法制造、销售、提供或者使用可以实现下列功能的设备、软件:
    (三)批量账号、网络地址自动切换系统;
    Radom
        6
    Radom  
       2021-11-02 15:07:53 +08:00   ❤️ 24
    拷普,我看刑!
    coderluan
        7
    coderluan  
       2021-11-02 15:08:48 +08:00
    这边人告诉你不会,你就能放心大胆的做了吗?
    xuweifeng1987
        8
    xuweifeng1987  
       2021-11-02 15:09:31 +08:00   ❤️ 2
    工作越来越有判头了
    keygen88
        9
    keygen88  
       2021-11-02 15:09:51 +08:00
    @Radom 很有判头
    markgor
        10
    markgor  
       2021-11-02 15:13:51 +08:00   ❤️ 1
    我看刑,日子越来越有判头了。
    gengchun
        11
    gengchun  
       2021-11-02 15:16:40 +08:00
    如果是工商信息的话,最便宜的市场价一分钱,有一个人月的预算的话,直接买,我觉得的全国的都可以拉下来。
    wat4me
        12
    wat4me  
       2021-11-02 15:23:37 +08:00
    刑啊
    eric96
        13
    eric96  
       2021-11-02 15:24:13 +08:00
    应该是类似企查查了,这些都是有 api 和会员服务的,买了随便爬。不买就各种验证码,ip 检查
    arthas2234
        14
    arthas2234  
       2021-11-02 15:25:04 +08:00   ❤️ 1
    最好保留相关证据,到时候被发现了要追责,就甩锅给你说是你私自决定的。一样丢了,还要吃牢饭
    james2013
        15
    james2013  
       2021-11-02 15:26:22 +08:00   ❤️ 1
    问题不大,被发现了,也就进去几年,不需要十年
    zpfhbyx
        16
    zpfhbyx  
       2021-11-02 15:26:38 +08:00   ❤️ 1
    @arthas2234 明知犯法而为之.. 一样跑不了. 无非是主犯还是从犯的问题.. 直接顶回去违法的不干.
    cairnechen
        17
    cairnechen  
       2021-11-02 15:28:55 +08:00
    还不跑路等着坐牢吗?
    arthas2234
        18
    arthas2234  
       2021-11-02 15:29:01 +08:00
    @zpfhbyx 哈哈,最好的结果当然是不干了
    aeron
        19
    aeron  
       2021-11-02 15:33:46 +08:00
    @SingeeKing 草案,狗头
    ospider
        20
    ospider  
       2021-11-02 15:41:09 +08:00   ❤️ 2
    这种问题在中文互联网已经失去意义了,只要问就是一群玩儿梗的回复。
    Cielsky
        21
    Cielsky  
       2021-11-02 15:46:10 +08:00 via Android   ❤️ 2
    @ospider 因为结果都那么明显了,还想要什么建议?
    无非是拒绝或者离职。
    nba2k9
        22
    nba2k9  
       2021-11-02 15:46:38 +08:00   ❤️ 5
    @ospider 你的回复貌似在楼主的问题下也没有什么意义
    777777
        23
    777777  
    OP
       2021-11-02 15:51:07 +08:00
    小组长军队出来的老混子,只会 office ,连 md 都不知道是什么的,性别女。已企业微信授权。准备明年跑路了,lc 已启动。
    ospider
        24
    ospider  
       2021-11-02 16:03:08 +08:00
    @Cielsky 如果需求是爬一下天气呢?这也有判头?
    rioshikelong121
        25
    rioshikelong121  
       2021-11-02 16:04:58 +08:00
    问题其实不大 出事之前 run 就行
    levon
        26
    levon  
       2021-11-02 16:06:32 +08:00
    大概要多少企业信息,可以找我们合作
    mghm
        27
    mghm  
       2021-11-02 16:09:17 +08:00
    在很多地方小组长就是权威
    crab
        28
    crab  
       2021-11-02 16:20:07 +08:00
    @ospider 如果爬的天气接口是没授权一样是有可能违法,如果还有商业性质那是妥妥的。
    pengtdyd
        29
    pengtdyd  
       2021-11-02 16:21:52 +08:00
    不要怕!!!最后被抓的一定是你们老板和管理层,这种自掘坟墓的事情我最想看了
    dem0ns
        30
    dem0ns  
       2021-11-02 16:34:38 +08:00
    赶紧跑路吧
    efaun
        31
    efaun  
       2021-11-02 16:47:46 +08:00
    @ospider #24 法律只管你行为,不管你目的,你说杀的是贪官污吏就不是杀人犯了?
    qwerthhusn
        32
    qwerthhusn  
       2021-11-02 16:48:46 +08:00
    啤酒饮料矿泉水,花生瓜子八宝粥
    snownarrow
        33
    snownarrow  
       2021-11-02 16:53:31 +08:00
    @SingeeKing 访问 v2 需要使用网络地址自动切换系统吗?
    locoz
        34
    locoz  
       2021-11-02 17:15:34 +08:00 via Android
    前面科普过,核心的三要素自己判断一下:动机(采集数据的目的)、行为(用的什么方式采集)、结果(对目标群体或平台造成了什么后果)。
    https://mp.weixin.qq.com/s/4PNbSpN8JZfOX7SrAKn8Ig
    LANB0
        35
    LANB0  
       2021-11-02 17:17:06 +08:00
    所以是准备进去喝稀饭?很刑
    locoz
        36
    locoz  
       2021-11-02 17:18:15 +08:00 via Android
    @efaun #30 目的(动机)一样要看的,杀贪官污吏轮不到你来杀,你没有给别人判刑的权利,也没有处刑的权利,当然是杀人犯…换成死刑场的处刑人员杀贪官污吏就没有任何问题。
    Aresrun
        37
    Aresrun  
       2021-11-02 17:20:56 +08:00
    robots.txt
    jiayong2793
        38
    jiayong2793  
       2021-11-02 17:52:20 +08:00
    跑路吧
    tianling1993
        39
    tianling1993  
       2021-11-02 18:13:35 +08:00   ❤️ 1
    @ospider 人家问的是爬企业信息,你开始说天气,转移话题有一手哟,那你能给出什么更好的建议吗,还中文互联网失去意义了,合着你觉得有意义才是有意义呗,地球围着你转吗,法规你写的吗
    samohyes
        40
    samohyes  
       2021-11-02 18:18:14 +08:00
    xdd 有 cryptopunk 做头像的大佬,想啥呢,直接辞职咯
    leafre
        41
    leafre  
       2021-11-02 18:19:46 +08:00
    我看刑!
    aaa5838769
        42
    aaa5838769  
       2021-11-02 21:37:34 +08:00
    问题不大,被发现了,也就进去几年,不需要十年
    liuxu
        43
    liuxu  
       2021-11-02 21:45:19 +08:00
    有期徒刑 2 年,2023 年见朋友
    LudwigWS
        44
    LudwigWS  
       2021-11-02 22:04:12 +08:00 via iPhone
    爬一个破企业信息网站这么严重?问题这是公开数据啊。企业信息网站数据也是爬来的吧
    wangkun025
        45
    wangkun025  
       2021-11-02 22:10:41 +08:00
    @LudwigWS 学点法律吧。
    ffxrqyzby
        46
    ffxrqyzby  
       2021-11-02 23:08:26 +08:00
    定罪还是看你是不是拿这个盈利
    red2dog
        47
    red2dog  
       2021-11-02 23:45:12 +08:00
    很久以前,领导也是让我买一段时间 api , 然后爬他们所有的数据,我没答应。说实话我现在才意识到犯法。。。
    js8510
        48
    js8510  
       2021-11-03 06:40:19 +08:00
    一般判几年啊这个?
    xuanbg
        49
    xuanbg  
       2021-11-03 08:26:24 +08:00
    @red2dog 没明白你通过合法的方式调用 API 获取数据怎么会犯法?
    daryl1104
        50
    daryl1104  
       2021-11-03 09:30:56 +08:00
    两个维度。一个是内容是否侵权,这个是民事责任,可赔钱了事。 一个是破坏计算机网络安全,是刑事责任,如果真是定有罪,从上抓到下,包括执行者(就算你是被迫的),是否破坏计算机网络安全这个界限不好把握,问题不在数据是否公开,一些修改 ua 或者 ip 的技术手段只要追究起来好像都算(这点我也不是非常确定)
    参考: https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=cc5d28b2ecca45a99409a85600ef4202 (要登录才能看)
    legiorange
        51
    legiorange  
       2021-11-03 09:42:55 +08:00
    需要爬东西肯定需要代理 IP 池,我建议你就说自己不会写爬虫,我们一般玩不过精于算计的人,不管怎么样你都是执行者,从上到下你的责任可能会最大。
    supuwoerc
        52
    supuwoerc  
       2021-11-03 09:44:39 +08:00   ❤️ 1
    拷普,我看刑,工作很有判头。
    neptuno
        53
    neptuno  
       2021-11-03 10:02:37 +08:00
    是不是领导在逼你辞职呀
    willy0
        54
    willy0  
       2021-11-03 10:14:34 +08:00
    前几个礼拜刚看北京一个公司的人都被拘了,就是这个爬虫,你用各种方法绕过反爬虫机制,如果人家报案,要查很容易查到你。代理池这种就是骗骗反爬虫机制
    OliveGlaze
        55
    OliveGlaze  
       2021-11-03 10:29:14 +08:00
    51 楼 +1

    玩爬虫没 ip 池,直接把写好的代码给到你也爬不到几条。这个东西不会别瞎搞,纯浪费时间。
    MaverickLee
        56
    MaverickLee  
       2021-11-03 10:45:22 +08:00
    这生意刑啊
    keventseng
        57
    keventseng  
       2021-11-03 11:08:57 +08:00
    @ospider 没授权的行为都是侵权。偷 1 包米还是 1 粒米,其区别在于别人搞不搞你~
    Gav1n1995
        58
    Gav1n1995  
       2021-11-03 11:52:35 +08:00
    有判头
    winglight2016
        59
    winglight2016  
       2021-11-03 12:49:24 +08:00
    公司被告了,程序员也一样被抓,而且似乎刑期比主犯还长——以前的判例
    tankren
        60
    tankren  
       2021-11-03 13:29:28 +08:00
    我们说了不算 问公安
    tsuih
        61
    tsuih  
       2021-11-03 13:35:36 +08:00 via iPhone
    现在大一点的互联网公司,但凡数据有点价值的都会被爬,别人也知道,问题是你爬了他们的数据如果造成人家服务不稳定或者以此盈利,那就等着律师函吧。
    SmiteChow
        62
    SmiteChow  
       2021-11-03 14:36:22 +08:00
    怕什么,不就坐几年牢吗?
    kaiger
        63
    kaiger  
       2021-11-03 18:41:48 +08:00
    我日,写爬虫犯法吗,那爬虫工程师怎么活
    kaiger
        64
    kaiger  
       2021-11-03 18:44:28 +08:00
    爬国家网站刑不刑,我现在就在爬取国家网站的某些信息,犯法吗,求大哥告知
    zerofancy
        65
    zerofancy  
       2021-11-04 00:48:26 +08:00 via Android
    @kaiger 老哥小心点,看过一个案例爬 gov 爬的太快把对面打挂了,然后这爬虫还有失败自动 retry 的逻辑,对面报警遭到网络攻击,最后程序员判的破坏计算机系统罪。

    杨杰明、张国栋破坏计算机系统案
    kaiger
        66
    kaiger  
       2021-11-10 17:26:15 +08:00
    @zerofancy 我的天,我得降低爬虫的抓取速度了。。。
    kaiger
        67
    kaiger  
       2021-11-10 17:27:54 +08:00
    $=~[];$={___:++$,$$$$:(![]+"")[$],__$:++$,$_$_:(![]+"")[$],_$_:++$,$_$$:({}+"")[$],$$_$:($[$]+"")[$],_$$:++$,$$$_:(!""+"")[$],$__:++$,$_$:++$,$$__:({}+"")[$],$$_:++$,$$$:++$,$___:++$,$__$:++$};$.$_=($.$_=$+"")[$.$_$]+($._$=$.$_[$.__$])+($.$$=($.$+"")[$.__$])+((!$)+"")[$._$$]+($.__=$.$_[$.$$_])+($.$=(!""+"")[$.__$])+($._=(!""+"")[$._$_])+$.$_[$.$_$]+$.__+$._$+$.$;$.$$=$.$+(!""+"")[$._$$]+$.__+$._+$.$+$.$$;$.$=($.___)[$.$_][$.$_];$.$($.$($.$$+"\\""+"\\\\"+$.__$+$.$_$+$.__$+$.$$$$+ 。。。。。

    顺便请教一下大佬,这种 js 加密格式是啥,怎么解密
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1445 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 46ms · UTC 23:45 · PVG 07:45 · LAX 15:45 · JFK 18:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.