最近需要做一个 Github 的软件(毕业设计),需要大量爬各种 issue、pull request 等的信息,5000 次每小时的 Github API 频率完全不够用。
想问下有没有封装好的有关 Github 的爬虫?谷歌上搜到的都是 Github 上的爬虫库项目
没有的话就去自己写了..
1
phpfpm 2020-01-28 10:54:05 +08:00
你写个脚本注册账号生成 api token 不就得了。。
另,我记得如果不登录(没 token )访问 api 的话有次数限制,有 token 还会有限制吗? |
2
JasonEWNL 2020-01-28 10:55:27 +08:00 via iPad
一个 JS 一个 Ruby 的库,都是 GitHub 上的 GitHub API 库。
https://github.com/github-tools/github https://github.com/piotrmurach/github |
3
tikazyq 2020-01-28 11:06:52 +08:00
自己写吧,很简单的,用 scrapy 的 CrawlSpider,注意反爬限制
|
4
charlieputon 2020-01-28 11:12:47 +08:00 via Android
github 不是有 api 吗。。不过是 graphql 的。。
|
5
VDimos 2020-01-28 11:47:48 +08:00 via Android
github 是公开 api 的吧
|
6
cmqwan 2020-01-28 12:06:10 +08:00 via iPhone
github 不让爬,有 robots 协议。
|
7
iYu 2020-01-28 12:14:28 +08:00
5000 次每小时的 Github API 频率完全不够用。 确认是毕业设计么?如果是的话,感觉有点厉害啊。 这是需要多少数据啊。爬个几天几夜都不够么。
|
8
oott123 2020-01-28 12:19:25 +08:00 1
你可以从这两个数据源获取数据:
GHTorrent: http://ghtorrent.org/downloads.html GH Archive: https://www.gharchive.org/ 他们提供了丰富的数据信息,较为方便的查询方式,以及简单的归档下载功能。不用自己爬…… |
10
Humbert OP @charlieputon 也有 RESTful 的,但是次数有点限制
|
15
sunwei0325 2020-01-28 17:34:27 +08:00
有个同事把代码传到 github 上, 公司安全部门很快就发现并通报了, 估计是自己实现的吧
|
16
everydaystruggle 2020-01-28 22:57:20 +08:00
楼主或者楼主导师是做 mining software repository 的么?
|
17
lazygod 2020-01-29 03:48:27 +08:00 via Android
@sunwei0325 用公司的电脑上床有记录的
|
18
SampleNaive 2020-01-29 19:32:59 +08:00
当然有啊,不然那些动不动几千 star,才几十个 issue 的项目怎么来的?
|