V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
wty95
V2EX  ›  程序员

网页自动化怎么攻克自动变化的验证码?

  •  
  •   wty95 · 2 天前 · 3643 次点击
    49 条回复    2024-12-16 20:59:40 +08:00
    seansong
        1
    seansong  
       2 天前   ❤️ 10
    很刑
    Abbeyok
        2
    Abbeyok  
       1 天前
    ddddocr
    nyxsonsleep
        3
    nyxsonsleep  
       1 天前
    直接买服务,根据难度,会比较贵。
    破解验证码本身就能赚钱,技术含量也比爬虫高,甚至可能是里面技术含量最高的内容。
    NoOneNoBody
        4
    NoOneNoBody  
       1 天前   ❤️ 1
    gov.cn ……这个不敢碰
    z1829909
        5
    z1829909  
       1 天前 via Android
    既然都 selenium 了,直接拿到页面图片文件送进 ocr 就行了,不用关心他怎么获取的。
    顺便,gov.cn 域名,你最好别搞。
    xuanbg
        6
    xuanbg  
       1 天前
    V2 真是什么样的人才都有
    dji38838c
        7
    dji38838c  
       1 天前
    水平越初,胆子越大
    klxyy
        8
    klxyy  
       1 天前
    GOV.CN 你也敢弄,果然很刑
    Leofits
        9
    Leofits  
       1 天前 via Android
    很刑很可拷
    hanssx
        10
    hanssx  
       1 天前
    兄弟,这个 uuid 要是根据客户端生成的,你有点自我暴露了就
    csulyb
        11
    csulyb  
       1 天前   ❤️ 1
    你想想为啥人家要弄一下验证码? 本来可以不用弄验证码的,就是因为楼主这样的憨憨 进去太多了
    shadowyue
        12
    shadowyue  
       1 天前
    很刑,出来了给大家讲讲里边的生活
    vevlins
        13
    vevlins  
       1 天前
    爬虫把政务网站搞挂被判刑的事你是没听说过?
    huage
        14
    huage  
       1 天前
    肉身在国外随便搞,在国内老老实实。
    fanhaipeng0403
        15
    fanhaipeng0403  
       1 天前
    疯了吧你。
    sir283
        16
    sir283  
       1 天前
    一、找打码平台,租接口。
    二、逆向网页 js ,尝试绕过对应逻辑,使其拿到对应的算法与出入参数,模拟 success 请求。类似中间人。
    三、黑掉对方服务器,直接提取数据。
    四、自己训练 ocr 模型。
    五、放弃。
    TArysiyehua
        17
    TArysiyehua  
       1 天前
    提供技术咨询,有意联系
    paopjian
        18
    paopjian  
       1 天前
    爬政府网?你在想什么呢
    sampeng
        19
    sampeng  
       1 天前 via iPhone
    刚看完新闻,年底了进去一堆爬虫小子…我还想哪来二的猛人爬个网站把自己送进去。这不就看到,有哥们急着进去吃年夜饭。
    gjw8u8
        20
    gjw8u8  
       1 天前 via Android
    这个牛逼
    Lukedis
        21
    Lukedis  
       1 天前
    狠人大帝都没你狠,怼着政府网站爬
    ggabc
        22
    ggabc  
       1 天前 via Android
    注意原则
    kele999
        23
    kele999  
       1 天前
    不要犯罪
    Liftman
        24
    Liftman  
       1 天前
    你好,已将您的行为投递到对应网信办。
    opengps
        25
    opengps  
       1 天前
    爬虫不爬 gov 这是底线
    suhu
        26
    suhu  
       1 天前
    @opengps robtos.txt 没有禁止的呢,一天只读一次的呢,这种大家没有接触过吗
    raycool
        27
    raycool  
       1 天前
    这种验证码没难度,但是这类网站很刑
    opengps
        28
    opengps  
       1 天前
    @suhu gov 级别比 robtos.txt 制定者的级别要高,所以在 gov 眼前一切更低标准都不适用
    Y25tIGxpdmlk
        29
    Y25tIGxpdmlk  
       1 天前
    目测这个验证码没什么难度,用 10 年前的打码技术都能轻松搞定,更何况现在有些 AI 识别和人工打码了。

    还有,验证码哪个不是随机变化的,我还以为是那种 GIF 的动态验证码呢
    et5494
        30
    et5494  
       1 天前
    0 难度,但是不敢
    guanhui07
        31
    guanhui07  
       1 天前
    果然很刑
    TophTab
        32
    TophTab  
       1 天前
    GOV ?老哥干的是体制内的活?
    我只知道以前大学老师会去干这个
    EndlessMemory
        33
    EndlessMemory  
       1 天前
    截图识别啊
    wzblog
        34
    wzblog  
       1 天前
    放过自己吧,你看他验证码连基本的干扰都不做,随便识别的。搞 gov 很容易吃国家饭的。
    jwenwang
        35
    jwenwang  
       1 天前
    大把这样的服务商,比如 https://www.jfbym.com/
    非要自己写的话用 OCR+AI 自己调教一下也够了
    dbow
        36
    dbow  
       1 天前
    建议不搞,政府的网站,你也知道的,性能不可能很好,万一被你刷崩了,估计要吃牢饭。
    Ackvincent
        37
    Ackvincent  
       1 天前
    直接买服务,不要再验证码上折腾,掉服务商的 API 就行了。
    angryfish
        38
    angryfish  
       1 天前
    即使你可能是某个地市或者啥的供应商,但是你用爬虫把省数据局的网站搞崩了,作为维护系统的乙方,为了能继续拿到这个项目,他们肯定想方设法甩锅,然后你一定会揪出来。然后恭喜你,你可能得进去了。
    isSamle
        39
    isSamle  
       1 天前
    https://www.jszwfw.gov.cn/jsjis/component/verifyCode.do?code=4&random=0.41377034550816183
    通过随机数后端计算返回验证码图片,上 OCR 吧
    chenzi0103
        40
    chenzi0103  
       15 小时 41 分钟前
    给到 llm 识别就好了 用个好的 llm 模型
    shangfabao
        41
    shangfabao  
       15 小时 33 分钟前
    selenium +ocr,ocr 用的第三方库 搞过
    wty95
        42
    wty95  
    OP
       15 小时 14 分钟前
    @seansong 各位老哥 我不是爬数据的,这个是政府公开中介超市,每天有项目可以报名,摇号中了就做业务,每天一堆报名,根本没精力手动填,所以想自动化报名。

    请问这个也违法么?
    zengxs
        43
    zengxs  
       15 小时 2 分钟前
    @wty95 重点不是爬数据,而是你这种行为很容易把网站搞挂
    gov 网站大多数本身就做的很垃圾,手动刷刷都有可能挂了,但是你手动刷的他也不能甩锅给你
    如果是被你程序刷挂了,恭喜你喜提破坏计算机系统罪
    xuhuanzy
        44
    xuhuanzy  
       14 小时 52 分钟前 via Android
    @wty95 他崩了只要查到是你的流量异常,你就百分百入狱。
    lanten
        45
    lanten  
       14 小时 47 分钟前
    有趣的,看到 gov 就吓到腿软
    angryfish
        46
    angryfish  
       13 小时 44 分钟前
    @lanten 有时候是百口难辨的。比如前几年的美国一位安全教授通过查看 html 页面获得几位老师的社保号码,被认为是黑客攻击。
    securityCoding
        47
    securityCoding  
       9 小时 40 分钟前
    兄弟,有些内部的爬虫自动识别 gov.cn 关键词 return 掉。。。
    yuchen198
        48
    yuchen198  
       8 小时 16 分钟前
    gov.cn 确实那啥最好别碰,我当时爬了药品监督局几万条数据,不过我那是一次性的,不是每天都要
    seansong
        49
    seansong  
       3 小时 51 分钟前
    @wty95 你这个自动化报名,不就是典型的非法破坏和入侵计算机系统么,非常刑
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1379 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 81ms · UTC 16:51 · PVG 00:51 · LAX 08:51 · JFK 11:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.