TB 规模,数据库存储方式的时序类开源数据分析平台小汇总,大家指正。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 2075 天前的主题，其中的信息可能已经有所发展或是发生改变。

drill+metabase: Apache Drill 是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎,使用 ANSI SQL 兼容语法,支持本地文件、HDFS、HBase、MongoDB 等后端存储,支持 Parquet、JSON、CSV、TSV、PSV 等数据格式。受 Google 的 Dremel 启发,Drill 满足上千节点的 PB 级别数据的交互式商业智能分析场景。这个本意是提升 hadoop 的查询速度,也可以接入关系数据库。 mtabase 安简单,支持复杂 join,对数据表的要求高,可能导致修改原表,比如添加字段等等 (这就不太好了)。 redash:看着 demo 比较简单,时间聚合功能弱;查询可视化。 superset:不支持多表 join。但是基本上应用中多表 join 是必须的。

======= 很想找到一款能够对时间序列数据进行数据挖掘的平台,上面的基本是可视化的,rapidminer(不再开源?),weka 等等哪个对不大的数据规模,数据库存储方式的时间序列数据进行挖掘呢? 读了一些文档,觉得还是视野太小了。大家帮忙出个主意?

drill

join

数据

数据库

3 条回复 • 2018-08-14 11:49:28 +08:00