唯品会发布了关于 329 机房宕机故障处理公告:此次南沙机房重大故障,影响客户达 800 多万,判定为 P0 级故障,对负责人予以免职处理。
据悉,此次南沙机房重大故障的主要原因是南沙 IDC 冷冻系统故障导致机房设备温度快速升高宕机,造成线上商城停止服务。
故障影响时间持续 12 个小时,导致公司业绩损失超亿元,影响客户达 800 多万,公司将此次故障判定为 P0 级故障。( P0 属于最高级别事故,比如崩溃、页面无法访问、主流程不通、主功能未实现,或在影响面上影响很大。)
与此同时,唯品会认为此次事故暴露出容灾应急预案和风险防范措施不到位,并决定对此次事件严肃处理。对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职做相应处理。
但毋庸置疑的是,唯品会作为拥有大量用户的电商平台,服务器和网络设备的正常运行至关重要。任何一次宕机事件,都会导致平台无法提供正常的服务,因此,每一次故障背后的原因和影响都值得大家思考,并引以为戒。
同样值得注意的是,受到此次机房事故影响的还有微信、QQ 等腾讯旗下社交软件,包括微信语音对话、朋友圈、微信支付,以及 QQ 文件传输、QQ 空间和QQ 邮箱在内的多个功能无法使用 。
对此 ,腾讯微信团队在 3 月 29 日上午发布信息称:“今天凌晨部分用户使用微信、微信支付相关功能出现异常,经工程师抢修,系统正在逐步恢复,很抱歉给大家带来不便。”
与此同时,腾讯内部对此事件的评估为“一级事故”,并对几名高管进行了不同程度的批评、降级和和免职处罚处理。
2017 年双十一凌晨,在数百万消费者的涌入天猫之际,出现了大量手机淘宝、手机天猫的用户无法付款和修改地址,订单、足迹、收藏夹、红包卡券等异常问题,直到 12 点 30 分,天猫的服务器才恢复正常。
2021 年 10 月 20 日晚上,就在淘宝电商大促“双十一”刚开始之际,不少用户发现淘宝出现了客服聊天窗口消息发不出、不能点确认收货等诸多问题。随后,#淘宝崩了# 话题迅速登上微博热搜榜,并占据榜首第一。
针对这类问题,在 CSDN 之前报道的《“一天宕机三次”,为什么高并发这么难?》一文中提到,可以从两个方面进行解析:
一方面故障是不可避免的,有人为的故障(人是容易出错的——Human Error)和非人为的故障(机器 Failure)。这些是无计划的停机,还有有计划的停机,如发布新系统、升级维护、更新硬件等。这也是为什么行业中即使部分公司做得再好也只能说自己能做到多少个 9,而非 100% 的主要原因。
另一方面,从分布式架构设计来说,世界上的软件都是有故障的,当故障发生时,大家首先希望故障不要蔓延开,能够控制得住,其次还希望故障的时间越短越好,不要太长。
然而,架构系统也有很多的依赖,如基础设施 DNS、CDN、运营商、机房等等,想要实现稳定,需要大家一起实现。
的确,服务器一旦宕机,消费者就无法对网站进行访问,客户下不了单,直接就会对公司经济利润造成很大的影响,甚至还可能影响到网站在搜索引擎上的收录和排名。