如何看待阿里云 2023 年 11 月 12 日发生的故障？

怡怡（涵韵） · 发表于 2024-1-4 17:44:26|来自：江西

11月12日晚间17:44起，阿里云产品控制台访问及API调用出现使用异常。
第一财经获悉，18时54分，经过工程师处理，杭州、北京等地域控制台已恢复，其他地域控制台服务逐步恢复中。19时20分，工程师通过分批重启组件服务，绝大部分地域控制台服务已恢复访问。

joevan · 发表于 2024-1-4 17:44:47|来自：江西

又想到了360大佬的话，公司做大了之后会有死海效应，做实事的往往会最先离职，都蒸发了，最后留下的都是混日子的老油条，包括管理层也一样。
360当年为了解决这个问题，干掉了所有高层，你们钱也赚够了，就别占着茅坑不拉屎了。
这次事故可能把阿里最后的护城河填平了

jakcy · 发表于 2024-1-4 17:45:15|来自：江西

怪不得阿里面试官一直问高可用，容灾机制应该怎么实现。本来以为他们是搁这给我装犊子呢。没想到他们真不会

webgotoo · 发表于 2024-1-4 17:45:55|来自：江西

坏消息：降本增效到了深水区。
好消息：阿里往社会输送的是真人才。

绿林宿梦 · 发表于 2024-1-4 17:46:39|来自：江西

这一波几个小时下来，阿里云的99.99%高可用是不是打破了这个神话！
一大片阿里的产品都挂了，这是一波史诗级的大故障！

进展更新：
17:50 阿里云已确认故障原因与某个底层服务组件有关，工程师正在紧急处理中。
18:54 经过工程师处理，杭州、北京等地域控制台及API服务已恢复，其他地域控制台服务逐步恢复中。
19:20 工程师通过分批重启组件服务，绝大部分地域控制台及API服务已恢复。
19:43 异常管控服务组件均已完成重启，除个别云产品（如消息队列MQ、消息服务MNS）仍需处理，其余云产品控制台及API服务已恢复。
20:12 北京、杭州等地域消息队列MQ已完成重启，其余地域逐步恢复中。
也不知道是不是裁员裁到关键人员了
说点实际的，裁员降薪确实太狠了，还想维持人多高福利时的服务，想啥呢？
这次阿里云史诗级的故障，印象中应该还是第一次，又要向社会输送一批优秀人才了。

chaoji · 发表于 2024-1-4 17:46:44|来自：江西

用了阿里云的公司，除非你是多云可切换，否则在这一小时休想活命！
基本所有可用区都有问题，异地多活毫不管用！
微博因为有多云，把图片切走了，不然图都看不了了。
无数可用区发生服务异常：

今天晚6点这一个多小时，饿了么都下不了单，骑手进不了系统，点不了外卖、停车场不抬杆、超市无法结账！
受影响产品：企业级分布式应用服务、消息队列MQ、微服务引擎、链路追踪、应用高可用服务、应用实时监控服务、Prometheus监控服务、消息服务、消息队列Kafka版、机器学习、图像搜索、智能推荐AlRec、智能开放搜索OpenSearch、云行情、数据总线DataHub、检索分析服务Elasticsearch版、图计算服务Graph Compute、实时计算Flink版、智能数据建设与治理Dataphin、开源大数据平台E-MapReduce、云原生大数据计算服务MaxCompute、实时数仓Hologres.大数据开发治理平台DataWorks、智能媒体服务、媒体处理、视频点播、对象存储、文件存储NAS、表格存储、日志服务、云存储网关、文件存储HDFS版、块存储、混合云备份服务、密钥管理服务、云防火墙、数据库审计、加密服务、运维安全中心(堡垒机)、容器镜像服务、容器服务Ku bernetes版、API 网关、资源编排、云原生数据仓库Analyti cDB PostgreSQL版、图数据库、云原生内存数据库Tair、云数据库Redis 版、云原生关系型数据库PolarDB、云数据库专属集群、云数据库MySQL版、云原生数据仓库AnalyticD B MySQL版、云原生分布式数据库PolarDB-X、云数据库 ClickHouse、云原生多模数据库L indorm、云数据库Postgr eSQL版、云数据库SQL Server 版、云数据库MongoDB版、云数据库HBase版、数据传输、数据库自治服务、数据库备份、物联网平台、NAT网关、负载均衡、云解析PrivateZone、弹性公网IP、共享带宽、转发路由器、私网连接、高速通道、IPv6网关、专有网络VPC、云企业网、VPN网关、FPGA云服务器、超级计算集群、批量计算、无影云桌面、弹性伸缩、弹性容器实例、弹性裸金属服务器、云服务器EC S、轻量应用服务器、函数计算、Serverless 应用引擎、云托付、专有宿主机、GPU云服务器、弹性高性能计算、操作审计、服务器迁移中心、运维编排、智能计算灵骏、云呼叫中心、交通云控平台、客服工作台、视觉智能开放平台、智能外呼机器人、智能语音交互、智能对话机器人、智能用户增长、运维事件中心、新零售智能助理。
2022年12月18日，阿里云香港Region可用区C发生大规模服务中断事件，对很多客户业务产生重大影响，影响面扩大到香港可用区C的EBS、、OSS、、RDS等更多云服务。
现在这次故障，刷新阿里云史上最大事故没跑了！阿里系的产品影响面这么广，其他互联网大小厂不知道都遭受什么大影响。

阿里云这一两年走了好多人，内部转岗/外部离职，人员动荡，系统就别想稳定，东乌科技，软通动力，中软国际，还有很多公司在招阿里外包，阿里目前的技术水平饱受质疑，这一波故障，大概率是存储层的问题，今年99.99%的可用性没了，325的也少不了。
唯品会，小红书，BOSS直聘，语雀，阿里这波，今年故障非常多！还希望互联网公司能吸取今年的各种教训，不要在研发资源上抠门省钱，增效降本裁员优化，到头来系统挂了给自己带来巨大损失，请给研发人员一个安心的工作环境！！

[电商] 如何看待阿里云 2023 年 11 月 12 日发生的故障？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家