V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
jiankangxin
V2EX  ›  问与答

求1牛逼网站爬取框架

  •  
  •   jiankangxin · 2013-11-22 20:01:49 +08:00 · 2715 次点击
    这是一个创建于 4022 天前的主题,其中的信息可能已经有所发展或是发生改变。
    RT。求推荐,Lucene+、utch 太老了
    5 条回复    1970-01-01 08:00:00 +08:00
    marchtea
        1
    marchtea  
       2013-11-22 23:39:40 +08:00
    关注,同求解答
    9hills
        2
    9hills  
       2013-11-22 23:48:30 +08:00   ❤️ 1
    定向抓取,问问Spider的RD就好了。

    不过自己搞的话量不大的用Scrapy不错,有个参考
    https://github.com/gnemoug/distribute_crawler

    用Mongodb做存储,Redis做分布式队列
    binux
        3
    binux  
       2013-11-23 00:13:26 +08:00   ❤️ 2
    我开源一个吧,特性:
    * web方式写脚本+调试(甚至支持webdav通过外部编辑器编辑)
    * web管理查看进度,调整抓取速度,异常监控(用于监控模板变化)
    * 脚本支持定时,完全的抓取控制
    * 多种调度方式(时间,etag,前链特殊标记调度)
    * 单机或分布式部署方式
    * 支持多种底层存储方式,多种QUEUE方案,多下游
    richiefans
        4
    richiefans  
       2013-11-23 00:39:37 +08:00
    @binux 太支持了
    jiankangxin
        5
    jiankangxin  
    OP
       2014-01-20 11:09:02 +08:00
    最后自己写了个简单的spider
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1244 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 18:24 · PVG 02:24 · LAX 10:24 · JFK 13:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.