V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
studyaa
V2EX  ›  问与答

跑爬虫程序, 每天都要跑几千万条数据, 公司想要租个服务器,V 友们可有什么推荐 ?

  •  
  •   studyaa · 2018-08-27 22:58:18 +08:00 · 3811 次点击
    这是一个创建于 2317 天前的主题,其中的信息可能已经有所发展或是发生改变。

    爬虫需求后期会很大,速度要快

    9 条回复    2018-08-28 14:51:09 +08:00
    summerwar
        1
    summerwar  
       2018-08-27 23:34:32 +08:00
    信息太少,没法推荐
    ToT
        2
    ToT  
       2018-08-27 23:46:19 +08:00
    能不能提供一些基本数字估计。当你写出来的时候,可能也就知道答案了。

    参看 http://highscalability.com/blog/2011/1/26/google-pro-tip-use-back-of-the-envelope-calculations-to-choo.html
    hundan
        3
    hundan  
       2018-08-28 00:22:34 +08:00 via Android
    借楼问一下,如果要做扫全球 ip 这种大流量出口的工作,有没有好的推荐,不会被封不会被警告的,出口带宽大的
    msg7086
        4
    msg7086  
       2018-08-28 04:25:57 +08:00
    需求后期会很大 —— 多大?
    速度要快 —— 多快?
    钱有多少?
    流量要用多少?
    IP 要多少个?要频繁换吗?
    要做分布式节点吗?
    国内外都要吗?

    @hundan 最好不要寄希望于单个节点。
    studyaa
        5
    studyaa  
    OP
       2018-08-28 09:26:35 +08:00
    @msg7086
    五六个小时要跑几千万数据,
    ip 肯定要频繁换,多少个的话我也不太清楚怎么算,一个首页面一个?几十万个?
    分布式不太懂
    国外的不需要
    价钱的话公司没说,就说做下来所需要的配置..

    还有感谢回答!
    studyaa
        6
    studyaa  
    OP
       2018-08-28 09:31:02 +08:00
    @summerwar 每天需要大概五六个小时跑几千万数据, 会用到 selenium
    服务器的配置也跟所需代理 ip 有关吗?
    对服务器不太懂
    为什么都需要在服务器上跑爬虫

    感谢之前的回答!
    studyaa
        7
    studyaa  
    OP
       2018-08-28 09:39:11 +08:00
    @ToT 嗯嗯! 我看看
    msg7086
        8
    msg7086  
       2018-08-28 12:41:30 +08:00
    @studyaa 嗯,需求超出了我的能力范围,没法回答你了。
    tennc
        9
    tennc  
       2018-08-28 14:51:09 +08:00
    正规的服务器跑爬虫都会被封吧,要找就找那些 black 服务器
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2421 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 15:51 · PVG 23:51 · LAX 07:51 · JFK 10:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.