这是一个创建于 1789 天前的主题,其中的信息可能已经有所发展或是发生改变。
如题:hive 数仓的数据同步,如果今天订单导入 hive 了,第二天用户又修改了订单信息,那怎么办?这样 hive 里面的数据就是脏数据了,这样的话,做分析统计 就跟实际的情况 就会有比较大的差异了
------
是不是还要一个数据更新的机制?这个一般是怎么处理的?
3 条回复 • 2020-01-03 08:24:44 +08:00
|
|
1
laimailai 2020-01-02 09:00:57 +08:00
我们是每天覆盖
|
|
|
2
laimailai 2020-01-02 09:01:39 +08:00
还有个拉链表方案去看下
|
|
|
3
zhxjdwh 2020-01-03 08:24:44 +08:00 via Android
|