[电商] 如何看待阿里云 2023 年 11 月 12 日发生的故障?

[复制链接]
怡怡(涵韵) 发表于 2024-1-4 17:44:26|来自:江西 | 显示全部楼层 |阅读模式
11月12日晚间17:44起,阿里云产品控制台访问及API调用出现使用异常。
第一财经获悉,18时54分,经过工程师处理,杭州、北京等地域控制台已恢复,其他地域控制台服务逐步恢复中。19时20分,工程师通过分批重启组件服务,绝大部分地域控制台服务已恢复访问。
全部回复5 显示全部楼层
joevan 发表于 2024-1-4 17:44:47|来自:江西 | 显示全部楼层
又想到了360大佬的话,公司做大了之后会有死海效应,做实事的往往会最先离职,都蒸发了,最后留下的都是混日子的老油条,包括管理层也一样。
360当年为了解决这个问题,干掉了所有高层,你们钱也赚够了,就别占着茅坑不拉屎了。
这次事故可能把阿里最后的护城河填平了
jakcy 发表于 2024-1-4 17:45:15|来自:江西 | 显示全部楼层
怪不得阿里面试官一直问高可用,容灾机制应该怎么实现。本来以为他们是搁这给我装犊子呢。没想到他们真不会
webgotoo 发表于 2024-1-4 17:45:55|来自:江西 | 显示全部楼层
坏消息:降本增效到了深水区。
好消息:阿里往社会输送的是真人才。
绿林宿梦 发表于 2024-1-4 17:46:39|来自:江西 | 显示全部楼层
这一波几个小时下来,阿里云的99.99%高可用是不是打破了这个神话!
一大片阿里的产品都挂了,这是一波史诗级的大故障 !


进展更新:
17:50 阿里云已确认故障原因与某个底层服务组件有关,工程师正在紧急处理中。
18:54 经过工程师处理,杭州、北京等地域控制台及API服务已恢复,其他地域控制台服务逐步恢复中。
19:20 工程师通过分批重启组件服务,绝大部分地域控制台及API服务已恢复。
19:43 异常管控服务组件均已完成重启,除个别云产品(如消息队列MQ、消息服务MNS)仍需处理,其余云产品控制台及API服务已恢复。
20:12 北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。
也不知道是不是裁员裁到关键人员了
说点实际的,裁员降薪确实太狠了,还想维持人多高福利时的服务,想啥呢?
这次阿里云史诗级的故障,印象中应该还是第一次,又要向社会输送一批优秀人才了。
chaoji 发表于 2024-1-4 17:46:44|来自:江西 | 显示全部楼层
用了阿里云的公司,除非你是多云可切换,否则在这一小时休想活命!
基本所有可用区都有问题,异地多活毫不管用!
微博因为有多云,把图片切走了,不然图都看不了了。
无数可用区发生服务异常:


今天晚6点这一个多小时 ,饿了么都下不了单,骑手进不了系统,点不了外卖、停车场不抬杆、超市无法结账 !
受影响产品:企业级分布式应用服务、 消息队列MQ、微服务引擎、链路追踪、应用高可用服务、应用实时监控服务、Prometheus监控服务、消息服务、消息队列Kafka版、机器学习、图像搜索、智能推荐AlRec、智能开放搜索OpenSearch、云行情、数据总线DataHub、检索分析服务Elasticsearch版、 图计算服务Graph Compute、实时计算Flink版、智能数据建设与治理Dataphin、开源大数据平台E-MapReduce、云原生大数据计算服务MaxCompute、实时数仓Hologres.大数据开发治理平台DataWorks、智能媒体服务、媒体处理、视频点播、对象存储、文件存储NAS、表格存储、日志服务、云存储网关、文件存储HDFS版、块存储、混合云备份服务、密钥管理服务、云防火墙、数据库审计、加密服 务、运维安全中心(堡垒机)、 容器镜像服务、容器服务Ku bernetes版、API 网关、资源编排、云原生数据仓库Analyti cDB PostgreSQL版、图数据库、云原生内存数据库Tair、云 数据库Redis 版、云原生关系型数据库PolarDB、云数据库专属集群、云数据库MySQL版、云原生数据仓库AnalyticD B MySQL版、云原生分布式数据库PolarDB-X、云数据库 ClickHouse、云原生多模数据库L indorm、云数据库Postgr eSQL版、云数据库SQL Server 版、云数据库MongoDB版、云数据库HBase版、数据传输、数据库自治服务、数据库备份、物联网平台、NAT网关、负载均衡、云解析PrivateZone、弹性公网IP、共享带宽、转发路由器、私网连接、高速通道、IPv6网关、专有网络VPC、云企业网、VPN网关、FPGA云服务器、超级计算集群、批量计算、无影云桌面、弹性伸缩、弹性容器实例、弹性裸金属服务器、云服务器EC S、轻量应用服务器、函数计算、Serverless 应用引擎、云托付、专有宿主机、GPU云服务器、弹性高性能计算、操作审计、服务器迁移中心、运维编排、智能计算灵骏、云呼叫中心、交通云控平台、客服工作台、视觉智能开放平台、智能外呼机器人、智能语音交互、智能对话机器人、智能用户增长、运维事件中心、新零售智能助理。
2022年12月18日,阿里云香港Region可用区C发生大规模服务中断事件,对很多客户业务产生重大影响,影响面扩大到香港可用区C的EBS、、OSS、、RDS等更多云服务。
现在这次故障,刷新阿里云史上最大事故没跑了!阿里系的产品影响面这么广,其他互联网大小厂不知道都遭受什么大影响。

阿里云这一两年走了好多人,内部转岗/外部离职,人员动荡,系统就别想稳定,东乌科技,软通动力,中软国际,还有很多公司在招阿里外包,阿里目前的技术水平饱受质疑,这一波故障,大概率是存储层的问题,今年99.99%的可用性没了,325的也少不了。
唯品会,小红书,BOSS直聘,语雀,阿里这波,今年故障非常多!还希望互联网公司能吸取今年的各种教训,不要在研发资源上抠门省钱,增效降本裁员优化,到头来系统挂了给自己带来巨大损失,请给研发人员一个安心的工作环境!!

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则