北京时间周一晚,谷歌云大规模宕机。@Google Cloud的Twitter官方账号发布消息称,由于身份验证系统的存储空间不足,谷歌系统经历了大约45分钟的宕机。
尽管相关报告显示故障集中在英国,但网站监测平台Down Detector的数据表明,澳大利亚、日本、印度、美国,以及欧洲和拉丁美洲的的一些国家不同程度受到影响。截止发稿,所有服务已恢复。
智能家居、协同办公受影响,或波及全球20亿用户
谷歌故障发生后,Twitter上“ #YouTubeDOWN ”标签迅速冲上“热搜”。
据了解,全球各地的谷歌应用程序,包括YouTube、Gmail、Meet、谷歌云盘、Android Play商店、地图等都遭遇了服务中断。其中,YouTube和Workspace(前身为G Suite)的活跃用户超过20亿。
故障发生时,正在使用Gmail的用户收到了提示:“服务临时中断,不能完成您的请求。请在30秒内重试。该故障已知晓。”
YouTube的用户页面一只拿着修理工具的猴子告诉用户:“出现错误了。”
谷歌表示,宕机的原因是,用户登陆时使用的身份验证系统出现了存储空间不足的问题。这跟一些用户的反馈是一致的,有网友表示,YouTube在不登陆账号的情况下可以使用,谷歌浏览器在隐身模式下可以使用。言外之意是,只要不需要登陆账号,谷歌服务基本没有问题。
但即便这样,谷歌故障也出现了连锁反应,故障影响范围在45分钟内逐渐扩大。
首先是谷歌智能设备的连接问题,例如在智能家居控制上,一些用户反馈无法通过智能音箱开关灯。而谷歌旗下智能家居Nest恒温器也存在故障,出现了无法控制家中暖气的情况。另外,由于Nest家庭安全摄像头的服务中断,一些用户无法远程监控家中情况。
谷歌协同办公工具Workspace(前身为Google Suite办公套件)状态页显示,故障影响了与该套件相关的25项服务,包括其远程教育应用、视频会议、即时通信等。一些使用谷歌应用进行线上授课的学校,遭遇了服务中断。外媒称,一所位于美国密歇根地区的学校宣布停课一天,往常这种停课措施只有在大雪天才会施行。
使用非谷歌应用的一些用户也遇到了问题。例如,某些Slack用户只能同在中断之前已经登录账号的同事交谈,除非他们在Slack上默认登陆了用户名和密码; 手机游戏《神奇宝贝Go》的玩家表示,他们也出现了无法登录的问题。这极有可能是因为《神奇宝贝Go》这款游戏使用了某些谷歌云服务。
尽管宕机范围很广泛,但在故障出现的前30分钟,无论是针对消费者、还是针对开发人员,谷歌均未报告任何故障问题。
“我们向所有受影响的人致歉,我们将进行彻底的跟进审查,以确保将来不再出现此问题。”谷歌表示。
采用单一软件供应商,存在风险
导致该错误的根本原因是,谷歌系统没有为身份验证服务自动扩容。业内人士表示,在正常情况下,当该存储空间已满时,系统应自动扩容。
但这并不是谷歌云今年第一次出现故障,2019年6月,谷歌曾出现过类似的故障,当时的罪魁祸首是谷歌对服务器设置的错误更改:该更改应该被应用于特定区域中的几台计算机,但被错误地进行了大规模应用。
相对于对消费者的影响,大家更关注谷歌服务中断对企业业务的影响。一些企业开始意识到,不能只使用一家数字化工具,单一供应商故障的极有可能导致大量线上活动的中断。
以谷歌为例,Down Detector数据显示,全世界对谷歌服务的依赖性的确惊人,YouTube报告的问题数量达到10万多个峰值。因此,一旦谷歌发生宕机,对企业产生的影响非同小可。
国际咨询机构Gartner此前也有报告证实,企业们对为了应对突发疫情,普遍选择对关键供应商进行备份,即不依赖一个供应商。
特许IT协会BCS研究员亚当·莱昂·史密斯(Adam Leon Smith)发表观点表示,现在,许多公司审查与谷歌的协议,会意识到其业务完全依赖于公司控制范围之外技术堆栈。这些技术堆栈故障后所产生的一系列影响,在某种程度上证明,我们对技术的依赖程度在无形中增加了,但与此同时,供应商在技术可靠性、质量上的提升却并没有同步增长。