目前在做数据平台方面的工作,发现对大公司而言,方案其实都很固定了
但对于小团队来说,有什么好的解决方案?
早期主要是用来解决 BI,数据查询需求,可支持或不支持基于数据的机器学习项目
目前能想到的
但不知道好的 ETL 工具用啥,莫非用 airflow? MySQL 库是否就足够了?
1
LightLolo 2019-03-09 13:30:12 +08:00
ETL 工具可以尝试一下 kettle。
|
2
liprais 2019-03-09 14:56:45 +08:00
etl hive spark 搞搞就完了
可视化 superset / zeppelin / Jupyter 哪个简单用哪个 小公司小团队就别搞啥数据仓库了,工作量太大,搞个数据集市收工 |
3
ddkk1112 2019-03-09 17:01:56 +08:00 via iPhone
先确定数据分析支持的业务范围
自己采集数据后可以上传阿里云计算,或者直接阿里云采集并计算 数据展示用 flask+element,一周就可以成型 |
4
hilbertz 2019-03-09 17:14:20 +08:00
用 greenplum 就可以了
|
7
sampeng 2019-03-09 18:54:15 +08:00 via iPhone
直接上云…讲真。这些需求小团队肯定是上云成本最低。无论哪个角度
|
9
sampeng 2019-03-09 19:01:57 +08:00 via iPhone
@cqcn1991 网络没问题。如果是海外用户肯定 aws 了。国内不好推荐…没用过…主要是数据的可靠性。腾讯和阿里都出过数据丢失…
|
11
sampeng 2019-03-09 19:05:11 +08:00 via iPhone
最近也正好看到这块。小需求…小团队的需求。aws 都不需要 ec2。全家桶。几天成型。把数据灌进去就能用了
|
12
cqcn1991 OP @sampeng aws 除了 red shift 还用些啥产品呢?也是自己部署些应用?有啥推荐的教程之类吗?
|
13
sampeng 2019-03-09 19:13:43 +08:00 via iPhone
@cqcn1991 其它的没了解…不用部署应用…鼠标点点。给你入口,api 把数据灌进去。就能用了…文档很细致了。自己看官网教程吧。算一下费用能不能接受…都是按使用量收费,精确到请求次数。其实阿里云国内也可以。看你看重什么…
|
14
sampeng 2019-03-09 19:16:10 +08:00 via iPhone
@cqcn1991 aws 大计算和 ai 那么多产品呢。总有一个适合你。最不济的。连 elk 都给你准备好了。再高级点就是 emr 了。你要的 hdfs 和 spark。flink 啥的都有。你要的帮你维护机器和程序自己撸用例。
|
15
sampeng 2019-03-09 19:17:17 +08:00 via iPhone
但按你的最近需求。真的 elk 完全够用…几年十来万差不多了…
|
16
cqcn1991 OP @sampeng 谢谢大哥!
想问一下,关于数据平台,从几个人,到小团队到大团队的演化,有什么文档、教程吗? 比如你说的,用 AWS/阿里云 ELK 一直到 HDFS/Spark。因为我知道的就是自研 HDFS+各种自研产品... |
17
fredliang 2019-03-09 20:11:25 +08:00 via Android
阿里云可以大概过一下 dataworks 的文档,写的已经比较完善了。如果没有很强的自建需求,从经济和研发成本来看公有云应该是最好的选择。
|
18
likuku 2019-03-09 22:32:52 +08:00 via iPhone
@cqcn1991 也可以直接打电话找 aws 售前技术支持咨询下,若比较合意,花点小钱买个 aws 技术支持服务,可以详细和专业大佬讨论方案。
|
19
sampeng 2019-03-09 22:33:52 +08:00 via iPhone
@cqcn1991 官方文档…没有之一。实在怕搞不定。都 support 服务。每月 10%支出。甚至会给你架构建议
|
21
wc951 2019-03-10 00:34:36 +08:00 via Android
cdh 社区版,etl 用 kettle
|
22
qwingmix 2019-03-26 17:08:39 +08:00
我们是一致用 GA+google tag manager, 我觉得日活在 10W 以下的基本够用,各种实时啊,聚合啊,埋点专题分析啊,都足够了。python 写脚本定制一些专题,导入到本地数据库,也足够了。 最后用 superset 展示。
其实你上面也写了这个方案。 |
23
cqcn1991 OP |