V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sjmcefc2
V2EX  ›  程序员

TB 规模,数据库存储方式的时序类开源数据分析平台小汇总,大家指正。

  •  
  •   sjmcefc2 · 2018-08-14 09:43:21 +08:00 · 1980 次点击
    这是一个创建于 2075 天前的主题,其中的信息可能已经有所发展或是发生改变。

    drill+metabase: Apache Drill 是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎,使用 ANSI SQL 兼容语法,支持本地文件、HDFS、HBase、MongoDB 等后端存储,支持 Parquet、JSON、CSV、TSV、PSV 等数据格式。受 Google 的 Dremel 启发,Drill 满足上千节点的 PB 级别数据的交互式商业智能分析场景。这个本意是提升 hadoop 的查询速度,也可以接入关系数据库。 mtabase 安简单,支持复杂 join,对数据表的要求高,可能导致修改原表,比如添加字段等等 (这就不太好了)。 redash:看着 demo 比较简单,时间聚合功能弱;查询可视化。 superset:不支持多表 join。但是基本上应用中多表 join 是必须的。

    ======= 很想找到一款能够对时间序列数据进行数据挖掘的平台,上面的基本是可视化的,rapidminer(不再开源?),weka 等等哪个对不大的数据规模,数据库存储方式的时间序列数据进行挖掘呢? 读了一些文档,觉得还是视野太小了。大家帮忙出个主意?

    3 条回复    2018-08-14 11:49:28 +08:00
    glacer
        1
    glacer  
       2018-08-14 10:33:32 +08:00
    InfluxDB+Grafana、ELK
    sjmcefc2
        2
    sjmcefc2  
    OP
       2018-08-14 10:47:54 +08:00
    @glacer elesticsearch 数值计算很弱,需要加 spark
    winglight2016
        3
    winglight2016  
       2018-08-14 11:49:28 +08:00
    ELK 足够了吧?想接入多种数据源,自己做 connector 吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2808 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 13:09 · PVG 21:09 · LAX 06:09 · JFK 09:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.