V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
ltebean
V2EX  ›  分享创造

在弄一个爬虫框架,类似于 alfred workflow,拖拖拽拽加少量的 script 就可以写出一个爬虫~

  •  1
     
  •   ltebean · 2014-03-16 08:48:30 +08:00 · 3429 次点击
    这是一个创建于 3684 天前的主题,其中的信息可能已经有所发展或是发生改变。
    前两天突发奇想搞了一个爬虫框架,主要思想借鉴了alfred workflow和ios开发里的storyboard。

    目前爬虫的配置都在config.yaml(https://github.com/yucong/spiderman/blob/master/config.yaml)里,demo里从点评的搜索结果页开始爬起,抓取每一家商户的信息

    解释一下这个配置文件:
    component是一个个功能单元,有处理页面的,有把数据持久化到db的
    segue是连接各个component的(to:发送到哪个component,func:把什么数据发过去,通过offer函数)
    比如shopList的两个segue,第一个segue是把下一页的链接也发给自己处理,第二个是把商户页的链接交给shop这个component处理~

    附上项目地址 https://github.com/yucong/spiderman

    目前主要的核心逻辑已经都实现了,就差把配置文件弄成像storyboard那样的可视化编辑了~

    大家有什么好的js库推荐么~
    2 条回复    1970-01-01 08:00:00 +08:00
    Comdex
        1
    Comdex  
       2014-03-16 12:14:51 +08:00
    有木有用golang实现啊?
    ltebean
        2
    ltebean  
    OP
       2014-03-16 19:20:33 +08:00
    @Comdex 目前是用nodejs实现的 其实逻辑也不复杂 主要就是处理segue这块 在lib下的pageProcessor.js里
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3255 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 13:23 · PVG 21:23 · LAX 06:23 · JFK 09:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.