http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml
这个网址看着是静态网站,但是还是抓不到数据
1
shuizhengqi 2020-03-04 11:09:10 +08:00
你信不信你会被喝茶
|
2
murmur 2020-03-04 11:11:06 +08:00 4
一天一条数据你还写个爬虫,是家里的饭不香了还是房子没单间大了
|
3
gongfuxiongmao OP @shuizhengqi 抓一个这网站,还好吧?又没违法
|
4
opengps 2020-03-04 11:15:27 +08:00
诚心建议:写爬虫不要碰这类网站
|
5
ESeanZ 2020-03-04 11:16:41 +08:00
“.gov.cn”这种域名的就别碰了
|
6
mianbao1 2020-03-04 11:16:49 +08:00 via iPhone
这是 zf 的网站吧
|
7
gongfuxiongmao OP 好吧,那还是听大家的吧,本来只是想学习一下,有疫情更新,就给自己发个邮件。
|
8
jeffrycheng 2020-03-04 12:57:36 +08:00
相信网警的力量,分分钟就警察到你家
|
9
hundan 2020-03-04 13:16:10 +08:00 via iPhone 3
又不造成影响 访问频率跟浏览差不多吧 除非你拿来做奇怪的用途 楼上一群未免矫枉过正? icp 备案查询不也是 gov 域名 用 icp 备案查询网站做爬虫反代的你们是没见过吗? 别说请你喝茶不讲理由 爬这个站点是触动了什么利益吗 看心情请你喝茶?
|
10
fengbjhqs 2020-03-04 13:46:21 +08:00
没有楼上说的那么可怕, 不要爬取用户信息,还有遵循 robots 协议,比如掘金的 https://juejin.im/robots.txt 和知乎的 https://www.zhihu.com/robots.txt ,坑爹的是这个网站没有
静态文件可以用正则,如果是 js 可以用 cheerio 或者 jsdom, 再有如果是疫情网上有其他 api,没有必要爬这个哇 |
11
aureole999 2020-03-04 15:37:51 +08:00
curl 都可以拿到内容啊,有啥不行的?
|
12
coderluan 2020-03-04 15:44:48 +08:00
告诉楼主个思路,别用爬虫,用油猴,数据肯定能拿到,这样实际上抓取的操作都是在你自己的电脑完成的,对于网站来说你只是打开页面速度很频繁而已,完全是安全的,这种方式”爬“数据的唯一缺点就是性能。
|
13
Altar 2020-03-04 15:54:46 +08:00
headless chrome
|
14
fish267 2020-03-04 16:06:01 +08:00
这么低频的,写个自动化脚本不就搞定了么
|
15
barrelsoil 2020-03-04 16:07:46 +08:00 via Android
@fengbjhqs 知乎把字节跳动屏蔽了?
|
16
13k 2020-03-04 16:07:59 +08:00
疫情数据新浪和网易都有 api,自行搜索 v 站
|
17
crella 2020-03-04 19:49:20 +08:00 via Android
这种静态网页,说不定连访问 ip 记录都没有……
广东省教育厅网页也几乎全是静态网页,加载速度很快 |
18
Macguffin 2020-03-04 20:01:38 +08:00 via Android
feed43,注册一个免费账号就行
|
19
Mavious 2020-03-04 21:07:31 +08:00 via iPhone
feed43 不是通用型爬虫,遇到 js 就挂比。不过楼主这种简单低频的需求我强烈推荐 feed43。
目前发现 feed 的 5 种失败情况: 1,post 协议给数据( feed43 只支持 get,除非自建,否则完全无法解决,绝望) 2,该网站不允许国外访问(年久失修 g0v 居多,除非自建,否则完全无法解决,绝望) 3,js 返回数据的(看近几年有好转,feed43 正在改善这个问题,现在很少见了) 4,成功抓取了但无法记忆上一次已阅点的。一条页面 20 个条目,今日已读完,明天网站没有更新条目,但这 20 条又推过来了,简直重复条目轰炸。 5,网站临时性无法访问,feed 推个 bad request,长期性无法访问,就第一次推过 bad,然后就悄无声息了~?需要人肉排查找出无法更新的源,有时候很久才发现爬虫挂了,然后错过重要信息。累。 |
20
gongfuxiongmao OP 这个网站我用 postman,发现返回的数据,没有正文
|
22
gongfuxiongmao OP @aureole999 curl 我这里怎么拿不到,里面的正文内容是空的,只有一堆 js
|
24
l0wkey 2020-03-04 21:38:39 +08:00 via iPhone
@barrelsoil $BIDU$投资了
|
25
npm 2020-03-04 22:01:50 +08:00
小心喝茶噢
|
27
aureole999 2020-03-09 12:42:30 +08:00
chrome 打开 f12,找到页面请求,右键 copy as curl 就可以
|