希望这些人不是后端或运维…
三副本都是同步的,一般只能避免磁盘损坏问题…
并不是你们以为的备份功能…
阿里云有云盘三副本的技术介绍
https://www.alibabacloud.com/help/zh/doc-detail/35108.htm
如果你还要咬着不放,我希望你转前端、客户端 ^_^
102
tianakong 2018-08-07 09:30:22 +08:00
要多少钱都应该给吧?
|
103
icop 2018-08-07 09:33:35 +08:00
我觉得 他们可能在玩勇者的游戏。
[$[$RANDOM % 6]==0] && rm -rf /|| echo "Lucky boy" |
104
chinvo 2018-08-07 09:41:35 +08:00 via iPhone 9
看到 chuck server 就该知道是分布式文件系统,根本和 raid 不是一个层面 东西。
腾讯宣传是三 chuck server,至于 chuck server 后面是什么,可能是 raid 1、3、5、10,也可能是单盘。 不过目前来看,可能 chuck server 都只有一台。 奉劝楼主作为一个后端开发不要对运维指手划脚,希望你别耽误了你们公司价值一千万数据。只是道听途说个 raid 安敢在此饶舌? |
106
zarte 2018-08-07 09:59:14 +08:00 2
真是睿智,建议你的简历附上此贴。
|
107
shanks 2018-08-07 10:07:48 +08:00
我感觉是这么个意思,三副本能防硬件 bug,防不住软件 bug (含误操作),要防软件 bug 还是要靠冷备
|
110
xanpeng 2018-08-07 10:19:50 +08:00
@reus 有可能是单点落盘,然后异步跟上。但可能性比较小,应该不会有人这么做,否则异步窗口期故障概率大很多,绝达不到 9 个 9.
另外关于备份,要求用户备份不大现实,这么多中小企业,让他们自己去做备份不大现实。一般买卖双方都相信那个 9 个 9. 反而云厂商自己做备份更好吧。不过主动做备份的云厂商有么,我也不清楚... 我也好奇,出过数据问题的国内外云厂商们,多少故障是落在那 9 个 9 之外的?我印象里还没有人这么承认过吧。 |
111
SoraneKazehana 2018-08-07 10:20:01 +08:00
这个帖子钓出了一群低素质为黑而黑的喷子
感谢帖主的帖子 我个人观点,一切云服务商都不靠谱,重要数据请自行定期线下备份,如果金钱允许,请自己搭建物理环境。 |
113
xanpeng 2018-08-07 10:22:08 +08:00
@void1900 “我想说的其实是身为开发者要理性面对数据丢失问题” 附言里这句我认同。
不过现实是诸多中小企业难以都做到关键数据本地备份。 |
114
xanpeng 2018-08-07 10:27:05 +08:00
@void1900
开发的底裤是不是要谨慎? —— 存储研发底线(底裤)就是不能丢数据。我们都知道和理解代码会有 bug,存储研发这里要谨慎地通过各种手段去容错。 存储一般也就是 raid,这里没人拿单机硬盘洗了 —— 我并非特指此文,可能本站其他文章里提及。 固件问题,我自己都碰过,镁光的 ssd,算靠谱吧?时间门,5000 小时候会导致系统死机 —— 固件问题遇到过的人不少,所以需要前面说的谨慎和容错 准入问题,bug 能遇见就不叫 bug 了,这里不是说有 bug 才对,而是 bug 不可避免,程序员应该理性面对 —— 这又是个概率问题了,是可能有 bug 的,不过出现几率小,真出现了,就认了,但同时也得反思准入流程是否有漏洞。而且真是大规模固件 bug,好事啊,这锅可以正大光明地甩出去了呀 |
115
flight2006 2018-08-07 10:27:55 +08:00
腾讯云没得洗,不管是硬件还是软件问题,硬件问题:三副本确实不应该都挂,软件问题:就是你腾讯云存储软件的 bug。https://www.alibabacloud.com/help/zh/doc-detail/35108.htm 这个链接里阿里云的描述是:“如果 ECS 实例由于病毒感染、人为误删除或黑客入侵等软故障原因造成数据丢失,需要采用备份、快照 等技术手段来解决”。人为的删除、病毒、黑客等用户应用层面的问题是无法用三副本解决的,这个案例压根就不是上面的情况
|
116
chinvo 2018-08-07 10:28:12 +08:00 via iPhone
@void1900 #112 如果是喷子,不论你说什么都会喷,类比不当也会被作为一个喷点,反而是因为你坚持 raid 的说法和楼上一些网友的互动比较像杠精。
|
117
jianpanxia 2018-08-07 10:29:15 +08:00
TX 不说说 Meta 挂了么~~
|
118
gamexg 2018-08-07 10:32:20 +08:00 1
@BlueFang #101 但是同步时不做校验这个锅腾讯丢不了。
不过也有两种可能会使校验失效: 1.hash 长度太短,以腾讯的体量碰巧碰到了 hash 碰撞使得校验失效。 2.故障盘变为了只读,并且写入时无报错。系统设计(不用文件系统直接裸盘分块)或者巧合造成同步时读取的数据是之前的数据,校验通过后被同步到了其他副本,如果部分块是内存的新数据,部分是硬盘的老数据,副本新旧都有死的会很彻底。 配合腾讯完全无法恢复数据,第一个可能不太大,第一个不可能所有快都巧合的碰撞成功,少量块损坏是可以恢复部分数据的。 那么有可能是第二个情况,我虽然没在硬盘碰到这种情况,但是在 u 盘碰到过,写入一切正常,拔掉重插后所有的修改全部丢失... 固态盘如果固件有问题很有可能碰到这种情况。 实际还是不能理解的是无法恢复任何数据,平常数据库删除操作都是只敢标记删除,而很少有实际删除的,数据库都会开启二进制日志等操作,防止数据丢失。 腾讯储存同步、备份操作时直接修改原始备份数据?而不是另建一个副本,延迟几天再删除老的副本?防止系统逻辑问题造成数据丢失。 给客户恢复几天前的副本这个事情也比目前根本无法回复好得多啊。 |
120
loryyang 2018-08-07 11:03:48 +08:00
按照我的理解:数据完全无法恢复,基本不可能是三副本硬件都同时挂掉,只要挂掉有先后,数据都会再扩充到三副本的。我不信会有这种概率。所以剩下两个可能:1. 没有用规范的三副本; 2. 软件设计问题,导致硬盘上的数据被覆盖了
这两个,腾讯云都脱不了干系。说句实话,看到这个事情,真的让我对公有云的信心小了很多。数据不能丢应该是最基础的保障了 |
121
jusalun 2018-08-07 11:24:19 +08:00
腾讯云和阿里云的备份都一样,物理备份后 hadoop 拖走,拖之前就压坏了,100 个副本也没用
|
122
Admstor 2018-08-07 11:47:03 +08:00 1
楼主你才真的不是做运维的吧
|
123
Admstor 2018-08-07 11:48:58 +08:00
@SoraneKazehana 拉到吧
个人或者团队做到 SLA 不低于云服务商级别,投入的技术和资金人力是会比直接买云服务更贵(除非你的规模很大,至少大到自己都可以卖云服务) 别以为你那一块移动硬盘的可靠性能达到 99.9999% |
124
SoraneKazehana 2018-08-07 12:04:57 +08:00
@Admstor #119 物理起码是数据在自己手上,而且还能多份备份+UPS 保证硬件安全,又或者使用磁带来进行冷备份
而且我也说了,没钱当然选择云服务 但是我从你口中出的言论,云不安全,物理不安全,那还干什么互联网行业 回家种番薯安全多了,不对,种番薯也不安全,哪天地震,电线杆砸死,不都要 GG ? 防范于未然,未雨绸缪,求天不如求己,都是老祖宗留下来的生存之道 |
125
Hozzz 2018-08-07 12:20:56 +08:00
阿里云那个不就是说三备份吗?三冗余=三备份( oracle 重做日志组了解下)
现在的猜测是三备份放在了同一个物理硬盘上,这块物理硬盘的 BUG 导致三个备份同时 GG,这和没有备份有什么区别?速度还慢 2/3 P.S:顺便应证了网上的一句话,云计算这个市场,自身品牌全靠友商衬托 |
126
CtrlSpace 2018-08-07 13:14:27 +08:00
腾讯云已经承认自己的问题并提出赔偿方案了啊,楼上部分人好好讨论技术不行吗,上来就是洗地、站队。。。
|
127
svenFeng 2018-08-07 13:15:28 +08:00 via Android 1
这个帖子真是奇观。。。
@void1900 看你的回复就知道,你不是做存储的,实际也不懂,回去多看书和论文吧,还 RAID。。。 这里的三副本往往指的是分布式存储中的三副本,具体细节没说,号称 9 个 9 可靠性,下意识还以为是用 Raft/Paxos 做了强一致性同步,结果呢,磁盘 Bug 导致全部数据没了,没了。。。多大脸。。。 |
128
Eugene1024 2018-08-07 14:20:24 +08:00
很多备份都是进行了理论备份了的,能本能恢复就是另外一回事了
|
129
abccccabc 2018-08-07 15:11:19 +08:00
其实应该讨论一下,下一家丢失数据的公司可能是谁?
|
130
xkeyideal 2018-08-07 16:04:22 +08:00
拿 mongodb 的副本集模式做个类比,如果是软件出错(程序运行错误)会导致主 mongo 的数据脏掉,然后副本集同步的时候从 mongo 也会脏掉,但绝对不会导致数据丢失(如果是删除操作除外)。
这次腾讯官方给出的答复是硬盘的软件故障("物理硬盘固件版本 bug 导致的静默错误") https://mp.weixin.qq.com/s/9bP6abnvOpufN3fomB4weQ,除非三个物理硬盘全部同时发生故障,否则不会导致数据完全丢失,既然是副本形式,那么数据的同步应该采用 raft/paxos 协议进行同步(推测,也可以使用 binlog 形式),那么就必须存在一主两从,当主挂掉,就会发生选举,此时副本变成一主一从。 请问楼主,副本模式为啥就不能作为物理硬盘故障时的备份呢? 虽然可能存在数据读脏或丢失数据的可能,但是完全可以作为备份啊。 请楼主不要侮辱大家的智商,请看到腾讯给出的故障公告再来着发帖洗地。还希望这些人不是后端或运维呢,我还希望你不是程序员呢 |
131
southsala 2018-08-07 16:13:46 +08:00
@ironx 三副本是数据有三份,每份都存储在不同节点,其中只能有两个可以存在一个机柜的节点内,一份没了会在生成一份出来,始终保持三份数据,我记得应该是这个样子
|
132
karllynn 2018-08-07 17:20:14 +08:00
喷了,作为开发者理性面对,你们老板都不能理性面对你信不
|
133
binghe 2018-08-07 18:14:48 +08:00
我觉得不管是 99.999...%后面是几个 9.
通过这件事情,可以确定的是: 把数据放在腾讯云是不安全的。 这样理解应该没错吧。 |
134
binghe 2018-08-07 18:17:33 +08:00
|
135
eslizn 2018-08-07 18:35:29 +08:00
任何云都不能确保安全
/t/426932 12L redis 被清空 https://aws.amazon.com/cn/ebs/details/ “ Amazon EBS 卷采用独特设计,年故障率 (AFR) 维持在 0.1% – 0.2% 之间,此处的故障指卷完全或部分丢失,这取决于卷的大小和性能” |
136
pluto 2018-08-07 19:14:14 +08:00 via Android
数据可用!=数据安全
|
139
feverzsj 2018-08-07 22:47:21 +08:00
问题是现在全部丢失,连根头发都不留
|
140
fgodt 2018-08-07 23:30:01 +08:00 1
这东西还有什么讨论的,数据全部丢失有什么洗的么 总不能服务器数据每秒都备份吧
|
141
zhxhwyzh14 2018-08-08 00:38:22 +08:00 via Android
复盘发现,该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损
|
142
Mac 2018-08-08 00:48:53 +08:00 via Android 1
我觉得这事吧,还是信息不对称。你认为的未必就是你认为的,这么些宣传名词,怎么解释那是南山法院的事情。IT 界现在编出来各种名词,各种技术词汇,有一大半就是用来忽悠人的。
|
143
hu6360567 2018-08-08 01:09:58 +08:00
如果是不可避免的 0.00001%,那么是腾讯的赔偿是符合预期的。
这次是运维人员违规操作,腾讯全责,本来是可以避免的,那么应该多赔一些,支持打官司,博同情没必要。 |
144
lihongjie0209 2018-08-08 08:50:31 +08:00
现在是运维的问题, 楼主你怎么说
|
145
justff 2018-08-08 09:04:10 +08:00 3
以后你在本站求职的时候我会帮你附上此贴
|
146
elsove812 2018-08-08 09:55:51 +08:00 via iPhone
打个比方,你对一群人喊话,说一个内容,一群人听到了记住了。这些人走了一半,还是有一半人知道内容,这个内容没有丢失。但是喊话的人喊出的内容是别人传话传来的,如果传就传错了,那喊出来的也是错的,再多人也没用。
|
147
hosea 2018-08-08 10:09:44 +08:00
我们这边的线下备份也只是 24 小时一次。。如果遇到同样时间至少有 24 小时的数据要丢了。。
|
149
yanhao1991 2018-08-08 15:50:50 +08:00
吓得我赶紧备份了下云上数据
|
150
jadec0der 2018-08-08 21:31:37 +08:00
建议楼主转前端、客户端 ^_^
|