阿里云再次发生故障,这已是2019年的第二起。
3月2日23时55分左右,阿里云开始出现大规模宕机故障,位于华北地区的多家互联网公司的IT运维人员发现多个APP和网站开始陷入卡顿。这场事故,持续了三个小时左右。经紧急排查处理后,3月3日早间云服务全部恢复正常。针对故障,阿里云表示会根据SLA协议(服务合同),尽快处理赔偿事宜。
十天前,阿里云今年的第一起事故被曝光。2月22日,有媒体报道了阿里云云效平台的源代码泄露问题,涉及40 家企业共 200 余项目,甚至还波及用户隐私敏感数据。此事还引起了“Internal之争”,即Internal权限到底是公司内部公开还是对整个云效平台公开,不同企业有不同理解,但最终还是造成了源码泄露。后来,阿里云就此事作出回应,并在网站醒目标识并给出告警。
事实上,阿里云源代码泄露问题在去年8月就已被用户发现,只是到今年2月份才被媒体曝出。
一
纵观近几年云计算发展,云计算事故就没有停止过。
不管是知名云计算厂商,还是刚上路的云计算初创企业,服务器中断以及客户数据丢失等问题,频频困扰着云计算企业。
2012年圣诞节前夕,亚马逊AWS的弹性负载均衡服务出错,导致Netflix停机。
2014年11月18日,由于软件更新及性能增加,微软zure存储服务发生大规模断电,这种情况在2015年12月再次发生。
2016年5月9日,Salesforce.com的硅谷NA14实例脱机,导致其断电超过24个小时。从那之后,Salesforce将其大部分工作量转移到了AWS上。
2016年10月21日,甲骨文旗下的DYN(DNS业务)遭遇了一系列分布式拒绝服务(DDoS)攻击,致使Airbnb、Twitter、 Amazon、Ancestry、 Netflix及PayPal等公司的业务均受到不同程度的影响。
二
即便云计算安全技术及防御设施不断进步,云计算故障仍旧时有发生。据不完全统计,单是2018年就有数十起云计算故障发生,涉及国内外各大知名云计算平台。其中比较有影响的,包括以下几个事故。
4月6日,微软Office 365和Azure Active Directory访问出现问题,几年来微软云计算出现多次此类故障。
6月15日,因重复分配内部IP地址,谷歌云虚拟机实例大量出现联不上网的问题。
6月27日,由于运维失误,导致一些客户访问阿里云官网控制台和使用部分产品功能时出现问题。受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。这次故障被阿里云内部定义为S1级别(在阿里巴巴的线上业务故障级别中,对S1的定义是:核心业务重要功能不可用,影响部分用户,造成一定损失)。
7月24日,腾讯云广州区域部分用户出现资源访问失败、控制台登录异常等情况。经排查,是因腾讯云广州一区的主备两条运营商网络链路同时中断所导致。但业内人士均知,两条运营商网络链路同时被挖断的情况并不常见,所以对腾讯云这次事故的主要原因仍有存疑。
8月,腾讯云发生故障,直接导致北京的一家初创公司数据全部丢失。事实上,此事发生于7月,只是到8月才被曝光。
三
在2018年的云计算事故中,影响面比较广的当属腾讯云的两次故障事件。
第一个事件,正是上文提到的初创公司数据丢失事件。
2018年7月,北京一家主要产品为“前沿数控自媒体”初创公司,在腾讯云的存储数据全部丢失了。某个是时间段,前沿数控的程序员发现无法登录云服务器,就反馈给腾讯云。得到的回复是“北京三区部分云硬盘出现故障,正在紧急恢复中”。
几天后,腾讯云告知前沿数控,这些丢失的数据无法找回了。于是,双方开始赔偿协商。前沿数控索赔1101.6万元,而腾讯云只愿意赔偿13.29万,双方陷入僵持。
而此事之所以传播开去,是因为腾讯云承诺9个9(腾讯云承诺99.9999999%的数据可靠性)的安全保障,也没能保住前沿数控的数据,且不能给予客户认为合理的赔偿,进而引发了诸多云服务使用者的热烈讨论。最终舆论演变为,前沿数控在操作上存在失误,但腾讯云服务的可靠性到底又有多高?广告宣传又有多少真实的存在?
此事表明,即便云服务商给予再高的承诺,云服务使用者也应本着对数据服务的态度,数据一定要多云或者异地备份,不能完全依赖云服务商。否则,一但出现问题,就是赔偿的再多,之前的经营数据也是无法挽回,甚至足以毁掉一个项目。
四
如果说数据丢失事故属于“天灾”,那腾讯云的第二个事故则可以归结为“人祸”。2018年8月,女性短视频社区App“她拍”上线了一款名为“她face+”的P图小程序,可将用户五官和脸型融合到其他图片素材中。她拍与腾讯云签订一年合同,购买其云服务及一项名为“人脸融合”的技术服务,每月支付500万左右费用。
腾讯云的“人脸融合”技术由天天P图提供支持,此前两个团队均属腾讯SNG事业群。9月27号天天P图停止向腾讯云提供技术支持,并力推同类小程序“疯狂变脸”。期间恰逢腾讯架构调整,因分属不同事业群两团队沟通协商难度加大。双方多次沟通,但原合同无法继续履行。
最终,10月17日达成结果,45天过渡期后“天天P图”不再为“她face+”提供技术支持服务。“她拍”创始人王宏达认为腾讯为推同类产品损害企业客户的利益,起诉起诉腾讯云违约,并索赔一个亿。
这个事件,意味着企业上云用云的风险除了云计算平台本身,还有很大的人为因素在内。这也是很多企业一直担心的问题,如果核心数据与模式被云计算厂商掌握并推出同类产品,企业又该如何是好?云计算厂商能够拿到所服务企业的任何数据,想要挤兑竞品那是易如反掌之事。