前两天突发奇想搞了一个爬虫框架,主要思想借鉴了alfred workflow和ios开发里的storyboard。
目前爬虫的配置都在config.yaml(https://github.com/yucong/spiderman/blob/master/config.yaml)里,demo里从点评的搜索结果页开始爬起,抓取每一家商户的信息
解释一下这个配置文件:
component是一个个功能单元,有处理页面的,有把数据持久化到db的
segue是连接各个component的(to:发送到哪个component,func:把什么数据发过去,通过offer函数)
比如shopList的两个segue,第一个segue是把下一页的链接也发给自己处理,第二个是把商户页的链接交给shop这个component处理~
附上项目地址
https://github.com/yucong/spiderman目前主要的核心逻辑已经都实现了,就差把配置文件弄成像storyboard那样的可视化编辑了~
大家有什么好的js库推荐么~