V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sewyu
V2EX  ›  程序员

有什么开源爬虫,请推荐

  •  
  •   sewyu · 2015-09-28 23:13:32 +08:00 · 6344 次点击
    这是一个创建于 3342 天前的主题,其中的信息可能已经有所发展或是发生改变。

    是这样,我打算撸个小破网站,专门发布那些类似 “新用户注册,享受 xx 优惠”的新闻。 全靠手动不行啊,所以想找个合适的爬虫。大家推荐下呗。
    谢谢

    42 条回复    2015-09-30 09:36:04 +08:00
    soratadori
        1
    soratadori  
       2015-09-28 23:26:54 +08:00
    自己写啊,又不难
    wangd
        2
    wangd  
       2015-09-29 00:22:51 +08:00 via iPhone
    scrapy
    pupboss
        3
    pupboss  
       2015-09-29 00:25:45 +08:00
    一流社区靠信仰,二流社区靠主题,三流社区靠福利
    heian0224
        4
    heian0224  
       2015-09-29 00:31:31 +08:00 via Android   ❤️ 1
    @pupboss
    所以 v2 是几流社区呢
    pupboss
        5
    pupboss  
       2015-09-29 00:33:50 +08:00
    @heian0224 我加入时间很短,没资格评论...
    imlonghao
        6
    imlonghao  
       2015-09-29 00:36:21 +08:00
    pyspider
    msg7086
        7
    msg7086  
       2015-09-29 02:09:06 +08:00
    @heian0224 1+2+3 = ?
    zts1993
        8
    zts1993  
       2015-09-29 07:16:28 +08:00 via Android
    scrapy 啊
    gzlock
        9
    gzlock  
       2015-09-29 08:39:04 +08:00 via Android
    nodejs 也挺容易啊,昨晚写了个队列任务+多线程采集,开了 50 个线程做测试, console 刷的飞快, 2333
    tobyxdd
        10
    tobyxdd  
       2015-09-29 09:03:49 +08:00 via Android
    v2ex 六流社区😂😂
    gzlock
        11
    gzlock  
       2015-09-29 09:11:19 +08:00 via Android
    @tobyxdd 吃枣药丸系列?
    mariadb
        12
    mariadb  
       2015-09-29 09:46:24 +08:00
    @gzlock node.js 还有多线程???
    jedyu
        13
    jedyu  
       2015-09-29 09:50:07 +08:00
    @msg7086 1+2+3 =t66y
    jimmyzhang33
        14
    jimmyzhang33  
       2015-09-29 10:16:33 +08:00
    scrapy 吧,看一下教程,基本功能就可以实现了。
    des
        15
    des  
       2015-09-29 10:19:24 +08:00 via Android
    @gzlock nodejs 多线程支持好像不好?
    ssltest
        16
    ssltest  
       2015-09-29 10:22:43 +08:00
    你这个问题问的好符合我的心意啊,以下内容希望你会喜欢。
    http://project.codefrom.com/?w=%E7%88%AC%E8%99%AB
    http://project.codefrom.com/?w=spider
    sewyu
        17
    sewyu  
    OP
       2015-09-29 11:16:05 +08:00
    @ssltest 对,你这个网站 我也是昨天才发现的。非常好 谢谢
    @jimmyzhang33 真没接触过,我这几天看一下材料,谢谢
    XianZaiZhuCe
        18
    XianZaiZhuCe  
       2015-09-29 11:19:18 +08:00 via Android
    @pupboss 我觉得福利第一位。
    plqws
        19
    plqws  
       2015-09-29 11:25:13 +08:00
    同样推荐 pySpider
    kepenj
        20
    kepenj  
       2015-09-29 11:29:22 +08:00
    改主题吧~ 专抓 1024 最新福利~ 保准大神 分分钟出现解决各种疑难杂症~
    Daddy
        21
    Daddy  
       2015-09-29 11:32:59 +08:00
    @pupboss 一流手机靠信仰,二流手机靠主题,三流手机靠福利 ?
    vitovan
        22
    vitovan  
       2015-09-29 11:59:30 +08:00
    alexinit
        23
    alexinit  
       2015-09-29 12:03:00 +08:00
    绝对是 scrapy
    sewyu
        24
    sewyu  
    OP
       2015-09-29 12:03:53 +08:00
    @kepenj 哈哈,我其实就想抓来自己用,不是经常有一些网站有这种活动么,比如新注册的用户可以 1 元买水果什么的。如果能抓到这些信息 分享出来就完美了。
    @vitovan 谢谢,学习一下
    li24361
        25
    li24361  
       2015-09-29 12:40:48 +08:00
    webmagic
    assassinpig
        26
    assassinpig  
       2015-09-29 14:19:44 +08:00
    小的自己写了就是 日后经常用个框架
    gzlock
        27
    gzlock  
       2015-09-29 14:50:22 +08:00 via Android
    @mariadb 有,搜 child_process 可以查到用法,我直接用 fork 方法建立线程,很方便

    @des nodejs 里一样是子线程,跟其它语言一样,都是可以控制整个子线程的生命周期和线程间通信,怎么去区分好不好呢?
    mariadb
        28
    mariadb  
       2015-09-29 15:59:44 +08:00
    @gzlock child_process 是创建多个进程,不是多个线程
    PandaSaury
        29
    PandaSaury  
       2015-09-29 16:19:47 +08:00
    自己造轮子吧
    PandaSaury
        30
    PandaSaury  
       2015-09-29 16:21:27 +08:00
    php + swoole
    gzlock
        31
    gzlock  
       2015-09-29 16:25:16 +08:00
    @mariadb 没法使用主进程的变量而已
    Chrics
        32
    Chrics  
       2015-09-29 17:56:11 +08:00
    scrapy
    yytsjq
        33
    yytsjq  
       2015-09-29 19:17:20 +08:00
    PHP Simple HTML DOM Parser
    Tink
        34
    Tink  
       2015-09-29 19:22:54 +08:00
    自己提取
    MicroPan
        35
    MicroPan  
       2015-09-29 20:32:29 +08:00
    java 的话 推荐 webmagic
    des
        36
    des  
       2015-09-29 22:21:24 +08:00 via Android
    @gzlock 应该是子进程,有个管理进程的包。但也是新的 vm ,并不共享
    xpol
        37
    xpol  
       2015-09-29 22:36:39 +08:00
    没人推荐 Ruby 方案吗? 我来一发: https://github.com/postmodern/spidr
    hjkl0001
        38
    hjkl0001  
       2015-09-29 23:18:01 +08:00
    scrapy
    paperpeper
        39
    paperpeper  
       2015-09-29 23:18:52 +08:00
    scrapy ++
    hjkl0001
        40
    hjkl0001  
       2015-09-29 23:19:03 +08:00
    使用 scrapy
    hcl
        41
    hcl  
       2015-09-29 23:58:53 +08:00
    PHP 环境下可以用 Goutte ( https://github.com/FriendsOfPHP/Goutte
    magicyu1986
        42
    magicyu1986  
       2015-09-30 09:36:04 +08:00
    ....Nutch?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2773 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 13:22 · PVG 21:22 · LAX 05:22 · JFK 08:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.