12月19日,阿里云发布公告表示,导致香港可用区C异常的机房制冷故障处理完毕,该可用区云产品功能陆续恢复正常。

回顾下此次故障全程:


(资料图片仅供参考)

12月18日上午

阿里云发布《阿里云香港可用区C某机房设备异常》公告。

“阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中。”

12月18日下午

澳门司法警察局官方发微博确认,澳门多家单位网站及平台因阿里云故障无法使用。

网络安全事故预警及应急中心今天较早前收到消息,由于阿里云的香港机房节点发生故障,导致澳门金融管理局、澳门银河、莲花卫视、澳门水泥厂等关键基础设施营运者的网站、澳觅和MFood等外卖平台、以及澳门日报等本地传媒应用程式,自今天(18日)中午开始暂时无法访问使用。网安中心已联系相关的关键基础设施营运者并跟进有关问题。”

12月18日下午

排查显示,阿里云香港地域故障确认系香港PCCW机房制冷设备故障所致。故障影响香港地域可用区C的云服务器ECS、云数据库、存储产品(对象存储、表格存储等)、云网络产品(全球加速、NAT网关、VPN网关等)等云产品使用。这一故障也影响了香港地域控制台访问和API调用操作,目前阿里云工程师在配合PCCW机房工程师加速处理,部分制冷设备正在恢复中。

12月19日

阿里云官网发布公告表示,故障已经修复,云产品功能正在陆续恢复。

目前阿里云所租用的香港电讯盈科公司机房已修复制冷设备故障,阿里云香港地域所有可用区云产品功能正在陆续恢复正常。对于受本次故障影响的产品,阿里云将根据相关产品的SLA协议进行赔付。

又是制冷故障 又是租用机房

在数据中心业务中断因素占比中,制冷故障排名第三。无论是压缩机、安全阀抑或停水导致的制冷故障、制冷效率低,均会引发机房温度升高,影响设备性能,如果不能及时处理,机房温度持续上升,或因过热宕机,服务中断、硬件损坏、数据丢失。

对于云厂商来说,因机房制冷设备故障,导致云产品宕机,并非鲜见。

2020年,微软Azure位于美国东部的数据中心发生服务中断,持续六小时。微软随后披露,一个冷却系统故障是导致这次停机的原因,发生故障的楼宇自动化控制导致气流减少,随后整个数据中心的温度峰值阻碍了网络设备的性能,使计算和存储实例无法访问。

阿里云的公告显示,此次出故障的机房并非阿里云自建数据中心,为租用的香港电讯盈科公司机房。

无独有偶,2020年8月某云厂商香港区服务器宕机,同样源于香港机房制冷设备出现异常。据相关人士披露,该出故障的机房并非云厂商自建,系租用的位于香港将军澳的某数据中心。从这一点上看,机房发生故障后,不仅云服务用户遭受损失,作为数据中心用户的云厂商亦是受害者。

推荐内容