V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
gongfuxiongmao
V2EX  ›  问与答

有大佬能抓取这个网址吗

  •  
  •   gongfuxiongmao · 2020-03-04 11:06:49 +08:00 · 4308 次点击
    这是一个创建于 1704 天前的主题,其中的信息可能已经有所发展或是发生改变。

    http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml

    这个网址看着是静态网站,但是还是抓不到数据

    27 条回复    2020-03-09 12:42:30 +08:00
    shuizhengqi
        1
    shuizhengqi  
       2020-03-04 11:09:10 +08:00
    你信不信你会被喝茶
    murmur
        2
    murmur  
       2020-03-04 11:11:06 +08:00   ❤️ 4
    一天一条数据你还写个爬虫,是家里的饭不香了还是房子没单间大了
    gongfuxiongmao
        3
    gongfuxiongmao  
    OP
       2020-03-04 11:13:08 +08:00
    @shuizhengqi 抓一个这网站,还好吧?又没违法
    opengps
        4
    opengps  
       2020-03-04 11:15:27 +08:00
    诚心建议:写爬虫不要碰这类网站
    ESeanZ
        5
    ESeanZ  
       2020-03-04 11:16:41 +08:00
    “.gov.cn”这种域名的就别碰了
    mianbao1
        6
    mianbao1  
       2020-03-04 11:16:49 +08:00 via iPhone
    这是 zf 的网站吧
    gongfuxiongmao
        7
    gongfuxiongmao  
    OP
       2020-03-04 11:18:19 +08:00
    好吧,那还是听大家的吧,本来只是想学习一下,有疫情更新,就给自己发个邮件。
    jeffrycheng
        8
    jeffrycheng  
       2020-03-04 12:57:36 +08:00
    相信网警的力量,分分钟就警察到你家
    hundan
        9
    hundan  
       2020-03-04 13:16:10 +08:00 via iPhone   ❤️ 3
    又不造成影响 访问频率跟浏览差不多吧 除非你拿来做奇怪的用途 楼上一群未免矫枉过正? icp 备案查询不也是 gov 域名 用 icp 备案查询网站做爬虫反代的你们是没见过吗? 别说请你喝茶不讲理由 爬这个站点是触动了什么利益吗 看心情请你喝茶?
    fengbjhqs
        10
    fengbjhqs  
       2020-03-04 13:46:21 +08:00
    没有楼上说的那么可怕, 不要爬取用户信息,还有遵循 robots 协议,比如掘金的 https://juejin.im/robots.txt 和知乎的 https://www.zhihu.com/robots.txt ,坑爹的是这个网站没有

    静态文件可以用正则,如果是 js 可以用 cheerio 或者 jsdom,

    再有如果是疫情网上有其他 api,没有必要爬这个哇
    aureole999
        11
    aureole999  
       2020-03-04 15:37:51 +08:00
    curl 都可以拿到内容啊,有啥不行的?
    coderluan
        12
    coderluan  
       2020-03-04 15:44:48 +08:00
    告诉楼主个思路,别用爬虫,用油猴,数据肯定能拿到,这样实际上抓取的操作都是在你自己的电脑完成的,对于网站来说你只是打开页面速度很频繁而已,完全是安全的,这种方式”爬“数据的唯一缺点就是性能。
    Altar
        13
    Altar  
       2020-03-04 15:54:46 +08:00
    headless chrome
    fish267
        14
    fish267  
       2020-03-04 16:06:01 +08:00
    这么低频的,写个自动化脚本不就搞定了么
    barrelsoil
        15
    barrelsoil  
       2020-03-04 16:07:46 +08:00 via Android
    @fengbjhqs 知乎把字节跳动屏蔽了?
    13k
        16
    13k  
       2020-03-04 16:07:59 +08:00
    疫情数据新浪和网易都有 api,自行搜索 v 站
    crella
        17
    crella  
       2020-03-04 19:49:20 +08:00 via Android
    这种静态网页,说不定连访问 ip 记录都没有……

    广东省教育厅网页也几乎全是静态网页,加载速度很快
    Macguffin
        18
    Macguffin  
       2020-03-04 20:01:38 +08:00 via Android
    feed43,注册一个免费账号就行
    Mavious
        19
    Mavious  
       2020-03-04 21:07:31 +08:00 via iPhone
    feed43 不是通用型爬虫,遇到 js 就挂比。不过楼主这种简单低频的需求我强烈推荐 feed43。

    目前发现 feed 的 5 种失败情况:
    1,post 协议给数据( feed43 只支持 get,除非自建,否则完全无法解决,绝望)
    2,该网站不允许国外访问(年久失修 g0v 居多,除非自建,否则完全无法解决,绝望)
    3,js 返回数据的(看近几年有好转,feed43 正在改善这个问题,现在很少见了)
    4,成功抓取了但无法记忆上一次已阅点的。一条页面 20 个条目,今日已读完,明天网站没有更新条目,但这 20 条又推过来了,简直重复条目轰炸。
    5,网站临时性无法访问,feed 推个 bad request,长期性无法访问,就第一次推过 bad,然后就悄无声息了~?需要人肉排查找出无法更新的源,有时候很久才发现爬虫挂了,然后错过重要信息。累。
    gongfuxiongmao
        20
    gongfuxiongmao  
    OP
       2020-03-04 21:14:08 +08:00
    这个网站我用 postman,发现返回的数据,没有正文
    aloyuu
        21
    aloyuu  
       2020-03-04 21:16:33 +08:00 via Android
    @hundan 你肯定没被请喝茶过
    gongfuxiongmao
        22
    gongfuxiongmao  
    OP
       2020-03-04 21:18:56 +08:00
    @aureole999 curl 我这里怎么拿不到,里面的正文内容是空的,只有一堆 js
    dallaslu
        23
    dallaslu  
       2020-03-04 21:19:11 +08:00
    带着 Cookie 应该还好吧。另外 gov.cn 肯定能爬,不然天眼查的数据都哪里来的
    l0wkey
        24
    l0wkey  
       2020-03-04 21:38:39 +08:00 via iPhone
    @barrelsoil $BIDU$投资了
    npm
        25
    npm  
       2020-03-04 22:01:50 +08:00
    小心喝茶噢
    hundan
        26
    hundan  
       2020-03-04 22:35:25 +08:00 via iPhone
    @aloyuu 你轻车熟路?
    aureole999
        27
    aureole999  
       2020-03-09 12:42:30 +08:00
    chrome 打开 f12,找到页面请求,右键 copy as curl 就可以
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2502 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 10:27 · PVG 18:27 · LAX 03:27 · JFK 06:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.