【www.hj8828.com】腾讯云丢失数据被索赔1100万 真相到底是什么?

近日,腾讯云的客户北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘发生故障,导致文件系统元数据损坏。

网易科技讯
8月8日消息,昨日腾讯云再发声明,盘复了“前沿数控”文件系统元数据损坏的技术原因,腾讯称该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致数据完整性受损。

8月8日上午消息针对“前沿数控”数据完整性受损一事,腾讯云今天在其公众号再次回应,称该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。

腾讯方面提出了总金额136,469元的“赔偿+补偿”解决方案,前沿数控则索赔11,016,000元,被腾讯认为过高,双方未达成一致。

腾讯云称,对其业务所受影响表示诚挚歉意。同时希望用户开启免费的快照功能,可对重要数据进行定期备份。

腾讯云称,当天上午11:57,其运维人员收到仓库Ⅰ空间使用率过高告警,准备发起搬迁扩容;在14:05时,运维人员从仓库Ⅰ选择了一批云盘搬迁至新仓库Ⅱ,为了加速搬迁,手动关闭了迁移过程中的数据校验;在20:27
搬迁完成之后,运维人员将客户的云盘访问切至仓库Ⅱ,同时为了释放空间,对仓库Ⅰ中的源数据发起了回收操作;到20:30
监控发现仓库Ⅱ部分云盘出现IO异常。

现在,腾讯云发布了一份关于客户“前沿数控”数据完整性受损的技术复盘,对客户业务所受影响表示诚挚歉意的同时,详细解释了此次故障发生的根源,以及将采取的措施。

8月6日,腾讯云表示,提出了“赔偿+补偿”总金额达到136,469元的解决方案,是该用户在腾讯云平台中用云金额的37倍。“前沿数控”基于自身评估就此次故障对腾讯云提出了11,016,000元的索赔要求。腾讯云称,这远远高于其能够提供的方案,双方目前未能达成一致。

并称本次事故起源自因磁盘静默错误导致的单副本数据错误,再由于数据迁移过程中的不规范操作,导致异常数据扩散至三副本,进而导致客户数据完整性受损。

腾讯云经过复盘发现,故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。

【关于客户“前沿数控”数据完整性受损的技术复盘】

此外,腾讯云还称,数据搬迁过程中的违规操作主要如下两点:

当天上午11:57,腾讯云运维人员收到仓库I空间使用率过高告警,准备发起搬迁扩容。

近日,腾讯云客户北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘发生故障,导致该客户的文件系统元数据损坏,我们对客户业务所受影响表示诚挚歉意。同时,我们也对此次故障过程进行了深入的技术复盘。

  • 第一是正常数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但是运维人员为了加速完成搬迁任务,违规关闭了数据校验;

  • 第二是正常数据搬迁完成之后,源仓库数据应保留24小时,用于搬迁异常情况下的数据恢复,但是运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。

14:05,运维人员从仓库I选择了一批云盘搬迁至新仓库II,为了加速搬迁,手动关闭了迁移过程中的数据校验。

复盘发现,该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。

因这些错误操作的连续影响,导致该客户数据完整性受损,给客户的正常业务运行造成影响。

www.hj8828.com,20:27,搬迁完成之后,运维人员将客户的云盘访问切至仓库II,同时为了释放空间,对仓库I中的源数据发起了回收操作。

痛定思痛,腾讯云希望在尽力帮助客户解决本次问题的同时,也通过相关机制的优化避免类似情况的再度发生。

20:30,监控发现仓库II部分云盘出现IO异常。

故障过程复盘