随着云提供商不断积累运营经验和技术的日益成熟,云故障的频率和持续时间都在减少。
这是个好消息。但另一方面,企业却在面对宕机的时候变得越来越脆弱。随着现代化应用和数据源变得越来越分散,我们对它们来管理日常生活方方面面的依赖性也越来越高,潜在的危害,或者强烈的挫折感,变得比以往任何时候都更大。
在接近年底的时候,DNS提供商Dyn遭受的故障表明,严重的漏洞可能会导致日益连接的世界瘫痪。
Verizon:1月14日
1月14日,Verizon数据中心断电影响到JetBlue航空公司的运营,导致数个航班延误,让许多乘客不得不重新预定。
Verizon并没有说哪个数据中心遭受了断电故障。
位于纽约的JetBlue公司在一篇博客文章中写到,该公司遭受的网络问题是因为Verizon的一个数据中心断电影响到客户支持系统,包括jetblue.com网站、移动应用、免费电话号码、值机、机场柜台和闸门系统。
微软Office 365:1月18日和2月22日
从1月18日开始,一些Office 365用户一连数天无法使用他们的云电子邮件帐户,这让他们痛苦不堪。
微软将这归咎于有漏洞的软件更新,但是第一次尝试修复并没有成功,5天之后第二次电子邮件故障激怒了客户。这个云生产力套件的电子邮件服务故障在一些情况下会持续超过一周的事件。虽然并非所有Office 365用户都受到宕机的影响,但微软证实,这次受影响的用户较多。
大约一个月后,微软在欧洲的一些客户发现他们无法通过手机访问电子邮箱,或者尝试通过网页版登录到Office 365服务的时候遭遇延迟。
微软表示,这两次故障的发生,都是因为用户重度资源需求导致基础设施组件降级。
Salesforce:3月3日
Salesforce在欧洲的一些客户不得不面对由于一个存储问题导致长达10小时的CRM故障。
即使是在存储层重新连接之后,一些功能仍然无法正常工作,Salesforce继续报告其EU2实例的性能下降。
Google Cloud Platform:4月11日
4月11日晚,Google Cloud Platform出现18分钟的中段,影响到Compute Engine实例和所有地区的VPN服务。
Google为受影响的客户提供每月Google Cloud Engine费用10%的折扣,以及每月VPN费用25%的折扣。
Salesforce:5月10日
5月10日,Salesforce.com持续中断了4个小时,让客户无进入CRM,并用了数天才完全修补好。
尽管Salesforce首席执行官Marc Benioff个人在Twitter上向一位客户道歉,但是并没有就这次故障受印象的范围、或者与NA14(Salesforce在北美的45个云实例之一)相关数据库故障影响到哪些地区或者服务作出评论。
Salesforce的系统状态页面表示性能下降开始于美国东部事件上午8:41,随后是不到一个小时的“服务中断”,时间是上午9:31。
Apple:6月2日
Apple云在6月2日发生广泛的服务中断,让Apple一些受欢迎的零售和备份服务服务都出现中断。
这次故障从太平洋时间下午12:30开始,让一些客户无法访问多个iCloud和App Store服务。
App Store、Apple TV App Store和Mac App Store、iTunes和Apple基于云的图片服务都遇到了中断。
AWS:6月4日
6月4日澳大利亚悉尼早于暴风雨,导致该地区的一个AWS域断电,一些托管了关键工作负载的EC2实例和EBS卷随后出现故障。
同时在那个周末,澳大利亚AWS可用区域内的网站和在线服务出现大约10个小时的中断,从银行服务到披萨送货都受到了影响。
受影响的企业客户敦促这个全球最大的云提供商尽快恢复服务。
Google Nest:8月22日
当美国全国遭遇热浪的时候,Google Nest恒温器也出现了连接错误,导致许多客户无法远程控制他们的空调系统。
虽然客户仍然可以手动控制AC,但是广泛的故障引发了人们对智能家居技术潜在漏洞的关注。Nest还售卖面向家庭、儿童监控和烟雾探测器的Dropcam。
微软Azure:9月15日
包括SQL Database在内的多个微软Azure服务,在9月15日波及所有地区用户的全球性DNS故障中发生降级。
微软在美国东部时间上午9点在Azure状态页面上报告了这次故障,并指出工程师们已经找出了导致该故障的底层问题,正在确定缓解问题的选项。截止上午11点,微软报告大多数中断的服务已经恢复上线。
一周之前也就是9月9日,Azure欧洲客户刚刚遭遇了数小时的服务中断。
Dyn:10月21日
10月21日,互联网性能管理公司Dyn早于网络攻击,导致广泛的服务中断,影响到包括AWS在内的多家云服务提供商,其中AWS不得不重新路由到备用的DNS提供商。
总部在曼彻斯特的Dyn公司表示,他们的服务器基础设施成为了这次分布式DDoS攻击的目标,特别影响到DNS客户。这种攻击是独一无二的,因为它来自数百万已经被恶意软件接管的物联网设备,如连接的相机和打印机。
许多依赖于Dyn流量管理和优化服务的流行网站出现中断或者遇到问题,包括Twitter、Spotify和Github。