昨日15:00左右,小编服务器收到香港服务器宕机警告提示,登录阿里云控制台,发现控制台也频繁报错,刷新有时候会看不到机器。然后紧急提交工单,但是阿里云售后在16:30左右才给我回复,官方公告设备故障。
“ 阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中,非常抱歉给您的使用带来不便,若您有任何问题,请随时联系我们。 ”
直觉告诉我这看来不是一个小问题,监控记录也发现服务器其实在12点左右就已经出现负载异常。 有网友反馈阿里云的香港部分服务出现故障,导致多个香港及澳门站点受到影响。
随后,阿里云方面发布公告表示,阿里云官网12月18日下午更新处理进展称,经排查,阿里云香港地域故障确认系香港PCCW机房制冷设备故障所致,影响香港地域可用区C的云服务器ECS、云数据库、存储产品(对象存储、表格存储等)、云网络产品(全球加速、NAT网关、VPN网关等)等云产品使用。
阿里云称,这一故障也影响了香港地域控制台访问和API调用操作,目前阿里云工程师在配合PCCW机房工程师加速处理,部分制冷设备正在恢复中。
对于此次大故障,我的感受是阿里云在故障出现的时候没有提醒用户(没任务短信、电话、邮件提醒),人工提交工单后反馈速度很慢。另外在晚上23点左右收到工单回复提醒说实例已经慢慢在恢复中,实际到第二天凌晨2:30(世界杯结束)还是没有恢复。最后凌晨4点15分左右又出现一次问题,知道早上7点半左右才完全启动服务器。
因此此次故障影响时间已经大于12小时,对我们的实际影响是18小时。 作为一家具备雄厚实力的公有云服务商,出现持续如此长时间的服务故障,在业界是相当罕见的事件。这一定是阿里云发展史上新的“至暗时刻”,也会大大影响阿里云在客户心中的地位。