图片 2

阿里云故障“惊魂”1小时:难道我们是那0.1%?

6月27日晚,北京国贸写字楼2座灯火通明。林晓宇疾步往返于运维部与研发部的走廊上,表情有些凝重。

图片 1

一场因阿里云故障引发的突发事件,导致他所在的互联网金融公司几近瘫痪。在运维部工作近一年,林晓宇首次受到公司各层级领导的“关注”。

阿里云又宕机了。

“很多部门的Leader都打电话,问我怎么回事”,面对质疑,林晓宇很是无奈。他回忆说,事发时,业务数据无法读取,交易短暂停滞,客服投诉量激增……运维部和开发部启动了自检,因服务器无法登录及文件存储NAS不能服务,问题也被很快确认:阿里云出了问题。

约在3月2日23时55分左右,没有任何征兆,阿里云出现大规模宕机故障,位于华北地区的多家互联网公司遭受到了故障波及,多个APP和网站开始陷入卡顿并且账户登录异常,这场事故持续了三个小时左右。

林晓宇所在的运维部启动了应急预案:在线服务失效,转为本地服务的Kubernetes容器集群,结果失效。采取手动更改,对象存储OSS失效,SLS失效……

3月3日凌晨,阿里云官方回应称“华北2地域可用区C部分ECS服务器等实例出现IO
HANG,经紧急排查处理后逐步恢复。目前我们已经全面排查其它地域及可用区,未发现此类情况。”

在等待的过程中,林晓宇一直琢磨:宣传时说“提供99.9%可靠性”,难道我们就是那0.1%?

根据阿里云描述,其在中国公共云市场占有率超过2至5名的总和,目前中国有40%的网站都在阿里云上运营。再加上宕机事件发生在了处于曝光率高峰的周末,经过各大平台的疯狂传播,导致这次事故备受关注。据专业人士分析,此次事故所在的华北2地域是阿里云最早开通服务的华北地域之一,而ECS服务器又是阿里云最为核心的IaaS之一,影响程度相对来说是比较大的。

惊魂一小时

此外,阿里云还表示,针对此次故障,他们将根据SLA协议尽快赔偿。但是到目前为止,阿里云并未公开具体的赔偿细节。据阿里以往的经验,赔偿很有可能按照故障时间的100倍进行,而具体赔偿方案则要根据不同的付费模式来,总金额不会超过支付单台云服务器费用的额度。

根据阿里云官方描述,其在中国公共云市场占有率超过2至5名的总和,目前中国有40%的网站都在阿里云上运营,一半独角兽公司也在使用阿里云。以这个体量计算,即便是那0.1%的用户,因为不明原因“宕机”所产生的焦虑感,也足以在社交网络上掀起轩然大波。

这已经不是阿里云第一次宕机故障了,从2012年开始,阿里云几乎每年都会发生一次故障。

图片 2

2012年

当天下午4点半开始,不断有“阿里云宕机”的消息在微博和微信群中传出。用户们指出,故障原因集中表现在官方网站和控制台无法访问。而当时,阿里云内部人员向新浪科技提供的第一份回应是账户登陆异常,云服务器不受影响,此次故障并非宕机。

10月30日,阿里云部分服务器有30多分钟的时间无法正常访问,起因是电力故障。

但官方回应迅速发酵出第二轮不满情绪。大量用户在新浪科技发出的微博下面投诉其他功能也被波及——和林晓宇一样,除了无法登陆之外,OpenSearch失效,ONS失效,NAS失效,OSS失效——简单来说,除了登陆环节异常外,阿里云的多个产品在该时段均无法使用。

2013年

最终,阿里云在下午发布故障公告,确认了除部分管控功能外,MQ、NAS、OSS等产品的部分功能出现访问异常。此次事故从16点21分至17点30分,时长约一小时。

1月18日,阿里云机房发生临时故障,部分用户服务器无法访问,20分钟修复;

一位用户点评道:中国互联网半壁江山,惊魂整整一小时!

1月23日,阿里云发生网络系统故障,OSS服务无法正常进行,故障持续长达6小时。

半壁江山还是0.1%?

2014年

郭宁显然在另外半壁江山里。27日晚高峰,他走出望京的写字楼,挤上地铁,打开手机刷了眼新闻,才知道这天下午阿里云“挂”了。

11月14日,由于市政施工导致运营商光纤受损,阿里云杭州可用区D网络故障,受此事件影响,当天不少P2P平台网站无法打开。

“什么异常都没有。”郭宁目前在一家IT公司负责开发团队,产品均托管在阿里云上,涉及ESC和其他多个云服务。但他向新浪科技表示,自己的产品没有受到任何影响。“网上那些问题一个都没碰到。”

2015年

实际上,不只是郭宁,新浪科技接触到的多名开发人员中,大多数都和郭宁一样,在宕机期间内毫无感觉。而唱吧、e代驾等使用阿里云的移动互联网应用,也几乎没有发出过抱怨的声音。

6月21日,一些使用阿里云香港数据中心的用户发现服务出了问题,服务中止12小时。此后,阿里云公告称由于运营商电力问题造成香港机房故障。

不过,对于那些“惊喜”一小时的用户来说,麻烦是切切实实的存在。据新浪科技不完全统计,此次事故受影响的范围十分广泛,包括电商、互金、通讯语音及教育行业等。阿里云客服人员表示,“此次属于大面积故障,基本上平台大部分业务全挂了”,但具体影响范围及用户数量无法确定。

2015年

林晓宇说,虽然故障后来得到了排除,但部门需要进行业务数据修复,这无疑增加了工作量。

9月1日,有多位用户在微博爆出运行在阿里云上的系统命令及可执行文件被删除,严重影响线上服务及运维。9月3日,阿里云云盾负责人吴翰清撰文阐述事件真相“工程师粗心大意写错一行代码”。

一家从事电商业务的员工告诉新浪科技,当天正进行用户拉新活动,注册短信接口全部失效,导致新增量在一两小时内为零,“老板不会关心服务器异常,他只会认为是我们工作没做到位”。

2016年

一个bug引发的惨案

7月6日,阿里云北京机房内网发生故障,导致大量互联网公司业务受到影响。阿里云工作人员表示,10点20分北京区开始出现故障,
11点20分恢复正常。

次日凌晨,阿里云发布了故障原因说明:工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug,错误代码禁用了部分内部IP,导致部分产品访问链路不通。后续人工介入后,工程师团队快速定位问题进行了恢复。

2018 年

新浪科技曾向阿里云方面询问具体的bug触发原因,但对方拒绝回答。

6 月27
日,阿里云出现大规模访问异常,图片服务等产品无法正常使用,官网账号也无法登陆。次日凌晨发布官方说明,表示故障起因是上线一个新功能时,触发了一个Bug,导致部分产品访问链路不通。受影响范围包括阿里云官网控制台,以及面MQ,NAS,OSS等产品功能。此次故障定位在在S1级别,整个阿里集团的核心业务,以及依托阿里云的公司,很多都受了影响。

各种段子一般的推测加入了下一轮传播。其中流传最广的一个版本是:刚刚招了两个实习生——误删了登陆服务。

除2017年,阿里云每年都会出现故障,有时甚至非常严重,这令企业用户不得不担心。事实上,宕机事件频繁发生。仅2018年一年,全球主流云计算厂商曾发生不下十起宕机事故:腾讯云因硬盘故障,谷歌云自动化机制失效,微软Azure被高温和累积影响,
AWS北弗吉尼亚地区数据中心出现硬件故障。

“实习生误删登陆服务之说,应该是不存在的。”IT领域自媒体“Linux高薪集训营“引用了原美团点评运维架构师及马哥教育联合创始人张sir的解读,“一方面,大型互联网公司尤其是阿里云这样的公司,对工程师权限有着极为严格的控制,因为阿里云数十万台服务器,支撑了全国各行各业千亿以上规模的线上业务,不可能让实习生不熟悉的情况下,给予过高的管理权限。这是极其不专业的做法。”

如何避免宕机事故造成重大损失?从业务安全性,稳定性的角度讲,企业在设计服务架构的时候,尽量要做到这几点:
数据一定要备份、服务与数据分开、多平台提供服务。