V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
lococo
V2EX  ›  云计算

如何快速检测大数据的完整性?

  •  
  •   lococo · 2014-03-11 17:01:06 +08:00 · 3106 次点击
    这是一个创建于 3704 天前的主题,其中的信息可能已经有所发展或是发生改变。
    貌似传统的方法如下:
    ORIGIN AUDIT
    row1 hash(row1)
    row2 hash(row2+hash(row1))
    ···
    rowN hash(rowN+hash(···))


    其中ORIGIN table里的是原始数据,AUDIT table里的是校验数据,假设AUDIT table里的数据没有被篡改过,那么最原始的办法就是一条一条用hash值去比对,

    但是对于大数据这样的效率太低了,有没有什么办法可以快速的校验数据的完整性呀
    2 条回复    1970-01-01 08:00:00 +08:00
    binux
        1
    binux  
       2014-03-11 17:42:41 +08:00
    确定你的需求,如果要检测任意一位错误,除了全扫一遍别无他法。
    Admstor
        2
    Admstor  
       2014-03-11 17:55:33 +08:00
    已存档的数据直接hash文件即可
    在线的数据感觉基本上就只能一条条扫了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2289 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 03:37 · PVG 11:37 · LAX 20:37 · JFK 23:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.