V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
leishi1313
V2EX  ›  分享创造

迫于老婆要买衣服,写了个 serverless 的 selenium 玩具

  •  
  •   leishi1313 · 2020-01-15 16:06:37 +08:00 · 4740 次点击
    这是一个创建于 1802 天前的主题,其中的信息可能已经有所发展或是发生改变。

    项目在这儿: https://github.com/leishi1313/serverless-web-differ

    主要用途就是可以在云端有个无头浏览器不断地帮你查看你想查看的页面,一旦发现有不同,可以通过 Email,Server 酱之类的发送通知。因为是 serverless 的,所以可以很省心,不用担心服务下线(其实我就是想这么玩玩看)。

    技术上主要基于Serverless&AWS Lambda,还有就是 Selenium。所以本身就禁 Selenium 的几个网站:淘宝、知乎、大众点评等等还是爬不了(或者说要多费点手段),反正我的需求只要能够爬老婆的几个卖衣服网站就 OK,所以就先这样了。感兴趣的可以配置一下玩玩看

    过两天再做个 docker image,更通用一些

    16 条回复    2020-01-17 19:20:47 +08:00
    greatghoul
        1
    greatghoul  
       2020-01-15 17:30:52 +08:00
    真的有老婆吗?
    precisi0nux
        2
    precisi0nux  
       2020-01-15 18:53:35 +08:00 via iPhone
    灰机杯好评
    pcbl
        3
    pcbl  
       2020-01-15 18:54:53 +08:00 via Android
    不从淘宝买衣服的老婆不是好老婆
    SquirrelMAN
        4
    SquirrelMAN  
       2020-01-15 18:58:13 +08:00
    最近正好有类似需求 支持
    JCZ2MkKb5S8ZX9pq
        5
    JCZ2MkKb5S8ZX9pq  
       2020-01-15 19:04:57 +08:00
    请问 selenium 现在可以突破 taobao 了嘛?
    之前不会加 header 被识别过,后来也没再试过。
    JCZ2MkKb5S8ZX9pq
        6
    JCZ2MkKb5S8ZX9pq  
       2020-01-15 19:06:28 +08:00
    汗,刚看到详情了,打扰了。
    非淘宝的话直接 requests 更轻吧
    controller
        7
    controller  
       2020-01-15 23:37:33 +08:00 via Android
    散了散了,要老婆的。
    leishi1313
        8
    leishi1313  
    OP
       2020-01-16 04:51:26 +08:00
    @JCZ2MkKb5S8ZX9pq 大部分购物网站光 requests 是不行的。再说靠 selenium 的话可以直接访问网页通过 xpath 得到价格,用 requests 还得一个个费劲地找价格对应的 API 是什么。理想状态下加监控的网站只需要修改配置文件然后重新 deploy 就可以了,代码都不需要改
    leishi1313
        9
    leishi1313  
    OP
       2020-01-16 04:52:31 +08:00
    @greatghoul
    @controller 要的要老婆的,而且还得背着每月收入-100%的 debuff
    haozes
        10
    haozes  
       2020-01-16 09:23:44 +08:00
    puppeteer 他们能防得住么?
    leishi1313
        11
    leishi1313  
    OP
       2020-01-16 11:30:59 +08:00 via Android
    @haozes 能的,只要想防什么都能。
    myqoo
        12
    myqoo  
       2020-01-16 16:17:52 +08:00
    @haozes ofcourse
    pincoudeduanyin
        13
    pincoudeduanyin  
       2020-01-16 16:22:12 +08:00
    啥意思,这个有什么用处,不太懂...
    leishi1313
        14
    leishi1313  
    OP
       2020-01-17 01:30:00 +08:00 via Android
    @pincoudeduanyin 看不懂就是用不上,点个星星就好👌
    ohoh
        15
    ohoh  
       2020-01-17 09:45:15 +08:00
    我记得有个 chrome 插件干这个的, 相当强大, 功能也超多, 但是
    我 不记得也找不到这插件叫啥了
    imdoge
        16
    imdoge  
       2020-01-17 19:20:47 +08:00
    @leishi1313 淘宝没试过,知乎试过,防不住的,无非是正确的 ua,http 头,还有 webdriver 等字段
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2546 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 11:54 · PVG 19:54 · LAX 03:54 · JFK 06:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.