有大佬能抓取这个网址吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1848 天前的主题，其中的信息可能已经有所发展或是发生改变。

http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml

这个网址看着是静态网站，但是还是抓不到数据

网址

静态

大佬

抓

27 条回复 • 2020-03-09 12:42:30 +08:00

shuizhengqi

2020-03-04 11:09:10 +08:00

你信不信你会被喝茶

murmur

2020-03-04 11:11:06 +08:00

一天一条数据你还写个爬虫，是家里的饭不香了还是房子没单间大了

gongfuxiongmao

2020-03-04 11:13:08 +08:00

@shuizhengqi 抓一个这网站，还好吧？又没违法

opengps

2020-03-04 11:15:27 +08:00

诚心建议：写爬虫不要碰这类网站

ESeanZ

2020-03-04 11:16:41 +08:00

“.gov.cn”这种域名的就别碰了

mianbao1

2020-03-04 11:16:49 +08:00 via iPhone

这是 zf 的网站吧

gongfuxiongmao

2020-03-04 11:18:19 +08:00

好吧，那还是听大家的吧，本来只是想学习一下，有疫情更新，就给自己发个邮件。

jeffrycheng

2020-03-04 12:57:36 +08:00

相信网警的力量，分分钟就警察到你家

hundan

2020-03-04 13:16:10 +08:00 via iPhone

又不造成影响访问频率跟浏览差不多吧除非你拿来做奇怪的用途楼上一群未免矫枉过正？ icp 备案查询不也是 gov 域名用 icp 备案查询网站做爬虫反代的你们是没见过吗？别说请你喝茶不讲理由爬这个站点是触动了什么利益吗看心情请你喝茶？

fengbjhqs

2020-03-04 13:46:21 +08:00

没有楼上说的那么可怕，不要爬取用户信息，还有遵循 robots 协议，比如掘金的 https://juejin.im/robots.txt 和知乎的 https://www.zhihu.com/robots.txt ，坑爹的是这个网站没有

静态文件可以用正则，如果是 js 可以用 cheerio 或者 jsdom，

再有如果是疫情网上有其他 api，没有必要爬这个哇

aureole999

2020-03-04 15:37:51 +08:00

curl 都可以拿到内容啊，有啥不行的？

coderluan

2020-03-04 15:44:48 +08:00

告诉楼主个思路，别用爬虫，用油猴，数据肯定能拿到，这样实际上抓取的操作都是在你自己的电脑完成的，对于网站来说你只是打开页面速度很频繁而已，完全是安全的，这种方式”爬“数据的唯一缺点就是性能。

Altar

2020-03-04 15:54:46 +08:00

headless chrome

fish267

2020-03-04 16:06:01 +08:00

这么低频的，写个自动化脚本不就搞定了么

barrelsoil

2020-03-04 16:07:46 +08:00 via Android

@fengbjhqs 知乎把字节跳动屏蔽了？

13k

2020-03-04 16:07:59 +08:00

疫情数据新浪和网易都有 api，自行搜索 v 站

crella

2020-03-04 19:49:20 +08:00 via Android

这种静态网页，说不定连访问 ip 记录都没有……

广东省教育厅网页也几乎全是静态网页，加载速度很快

Macguffin

2020-03-04 20:01:38 +08:00 via Android

feed43，注册一个免费账号就行

Mavious

2020-03-04 21:07:31 +08:00 via iPhone

feed43 不是通用型爬虫，遇到 js 就挂比。不过楼主这种简单低频的需求我强烈推荐 feed43。

目前发现 feed 的 5 种失败情况：
1，post 协议给数据（ feed43 只支持 get，除非自建，否则完全无法解决，绝望）
2，该网站不允许国外访问（年久失修 g0v 居多，除非自建，否则完全无法解决，绝望）
3，js 返回数据的（看近几年有好转，feed43 正在改善这个问题，现在很少见了）
4，成功抓取了但无法记忆上一次已阅点的。一条页面 20 个条目，今日已读完，明天网站没有更新条目，但这 20 条又推过来了，简直重复条目轰炸。
5，网站临时性无法访问，feed 推个 bad request，长期性无法访问，就第一次推过 bad，然后就悄无声息了~？需要人肉排查找出无法更新的源，有时候很久才发现爬虫挂了，然后错过重要信息。累。

gongfuxiongmao

2020-03-04 21:14:08 +08:00

这个网站我用 postman，发现返回的数据，没有正文

aloyuu

2020-03-04 21:16:33 +08:00 via Android

@hundan 你肯定没被请喝茶过

gongfuxiongmao

2020-03-04 21:18:56 +08:00

@aureole999 curl 我这里怎么拿不到，里面的正文内容是空的，只有一堆 js

dallaslu

2020-03-04 21:19:11 +08:00

带着 Cookie 应该还好吧。另外 gov.cn 肯定能爬，不然天眼查的数据都哪里来的

l0wkey

2020-03-04 21:38:39 +08:00 via iPhone

@barrelsoil $BIDU$投资了

npm

2020-03-04 22:01:50 +08:00

小心喝茶噢

hundan

2020-03-04 22:35:25 +08:00 via iPhone

@aloyuu 你轻车熟路？

aureole999

2020-03-09 12:42:30 +08:00

chrome 打开 f12，找到页面请求，右键 copy as curl 就可以