V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jahan
V2EX  ›  程序员

分布式存储系统, HDFS 是不是无可替代?

  •  
  •   jahan · 2018-03-15 16:23:26 +08:00 · 5283 次点击
    这是一个创建于 2445 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Hadoop 框架下的 HDFS 大数据存储组件,用来存储海量数据的。目前是不是没有替代的方案?或者说 cdh、hdh 等等为基础 hadoop 生态圈无可替代? 无论 spark,flink,storm 都要缺少存储组件或者说必须运行在 HDFS 之上? 很想知道有没有一种能够快速部署、关注数据分析的开源产品或者方案? 觉得从用户角度,把现有的数据灌入平台(例如 hadoop 生态系统),利用平台(生态系统)提供各种武器高效分析才是目的。

    8 条回复    2018-03-16 19:15:24 +08:00
    Itoktsnhc
        1
    Itoktsnhc  
       2018-03-15 16:58:18 +08:00
    azure hdinsight 了解一下?
    we000
        2
    we000  
       2018-03-15 17:03:22 +08:00
    ceph 了解一下?
    whatsmyip
        3
    whatsmyip  
       2018-03-15 19:25:32 +08:00
    不是无可替代,更多是没法替代

    很多公司以前用 Hadoop,数据都在 HDFS 上,做迁移很麻烦

    Flink 不知道,Spark 确实要求 HDFS,尽管它要替换 Hadoop,但是数据层这块,真的不好动,毕竟换一个新的系统不是一件容易做到的事(对于说大不大,说小不小的公司来说),至于 Storm,没说一定要落地到 HDFS
    啊,我放到 Redis、mongoDB、Mysql 都有

    至于更快的存储,也是有的,比如 Alluxio,是 Spark 同实验室开发出来的,思想跟 Spark 类似,都是借助内存对硬盘碾压式的读写速度

    最后,目前大数据平台是有很多的,开源的 HUE,闭源的阿里、Azure 都有。另外,/t/428727 这个帖子里也提到了很多工具。
    jahan
        4
    jahan  
    OP
       2018-03-15 20:41:15 +08:00
    @whatsmyip 其实对于初学者来说,从未来学习角度讲,如果有更好的替代方案那是最佳的,毕竟 hadoop 也是 2004 年的了(当然,c,unix 都是上个世纪 80 年代的,依然在业界活的不错)。
    如果对于企业界来说,确实是 legacy 太多,不好转型。
    Matei 做的 Dawn 项目我觉得就是一个特别好的平台,特别希望数据分析用户不用特别关心 infrastructure,而只关心数据如何进入,分析数据,呈现分析结果的平台。尤其是各种分析武器接口,比如 python,r 等对非计算机科班的来说就特别重要,当然还有各种 ml 包。从纯使用者来讲,特别想找到这样一个下一代的解决方案。
    记得哪里看过一个开源项目介绍,说是用户可以不关心 infrastructure,快速部署,马上使用,忘记具体名字了,只记得开源版本和商用版本差别较大。

    flink 也是可以使用非 hdfs 的数据存储,但总觉得 hdfs 的影子很重。
    目前的方案,感觉基本上是基于 hadoop 的 cloudera 和 hortonworks,mapR。如果要搜索新的更快的存储,除了上面的说的几个,要搜什么关键词呢?
    HUE 应该是 cloudera 开发的?

    看哪一个更有前途是不是要看哪一家开源拿的投资多,哪家股价高? hdp 和 cldr 股价差不多。
    jahan
        5
    jahan  
    OP
       2018-03-15 20:56:24 +08:00
    @whatsmyip Alluxio 貌似也是一个针对不同数据源( hadoop,s3 等)的数据接口,Alluxio, formerly Tachyon, enables any application to interact with any data from any storage system at memory speed.
    Xibuka
        6
    Xibuka  
       2018-03-16 08:01:16 +08:00
    GlusterFS 了解下~
    lyc1116
        7
    lyc1116  
       2018-03-16 17:50:09 +08:00
    顶 GlusterFS
    jahan
        8
    jahan  
    OP
       2018-03-16 19:15:24 +08:00
    @Xibuka
    @lyc1116
    主页貌似没有案例?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2728 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 15:04 · PVG 23:04 · LAX 07:04 · JFK 10:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.