[网购] 唯品会崩了相关负责人被免职,你对该处罚有哪些评价?

[复制链接]
kino 发表于 2023-8-17 16:18:36|来自:北京 | 显示全部楼层 |阅读模式
#唯品会崩了相关负责人被免职#【#唯品会公布329事故处罚结果#】3月29日,唯品会崩了登上热搜,@唯品会 官方回应称:因系统短时故障,主站“加购”等功能或出现异常。6月5日,唯品会发布关于329机房宕机故障处理公告。公告称,此次南沙机房重大故障影响时间持续12个小时,导致公司业绩损失超亿元,影响客户达800多万,公司将此次故障判定为P0级故障。公司决定对此次事件严肃处理,对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职做相应处理。
全部回复5 显示全部楼层
warkinger 发表于 2023-8-17 16:18:50|来自:北京 | 显示全部楼层
不得不佩服公关做的好,3月的事情,可以在6月冲上热点,能做一个免费的推广,也不错。出发点不错。
影响800W用户,损失一个亿,好大的体量啊。
过段时间就下去了,乱哄哄你方唱罢我登场。

  • 可以确定的事,整个技术团队基础架构会逐步解土崩散掉,毕竟领导都走了;
  • 机房冗余的事情肯定是谈不了,想想就算了,因为大背景省钱;
  • 缓存的事情和2一样,只能想想。
在当前的背景下,设备老旧,人员优化缩减,迟早要出问题,和负责人没有任何关系,最多就管理不善的问题,不至于免职,换任何一个人来都一样,都解决不了问题。
老板说的是要免职,实际上是变相的压缩技术成本,即达到了收紧人力成本的目的,又达到了营销的目的,操作确实是可以。
Kimi 发表于 2023-8-17 16:19:48|来自:北京 | 显示全部楼层
我做了下机房调查,采访了前知名社交平台基础架构总监,还跟多名高可用架构师探讨,再结合我本人的经历,这里来深入分析一下,避免大家再踩坑。




这两天唯品会329机房宕机处理结果出了,基础平台负责人被免职,跟apple vision pro一样上了热搜。

是这个机房故障太严重?还是因为唯品会技术太菜了?还是这个负责人技术菜?我做了下机房调查,采访了前知名社交平台基础架构总监,还跟多名高可用架构师探讨,再结合我本人的经历,这里来深入分析一下,避免大家再踩坑。

一 事件回顾
3 月 29 日,有多名网友反馈唯品会“崩了”,用验证码登录时显示网络错误,登不上去。
随后,唯品会官方微博表示:因系统短时故障,导致主站“加购”等功能或出现异常。
据悉,此次南沙机房重大故障的主要原因是南沙 IDC 冷冻系统故障导致机房设备温度快速升高宕机,造成线上商城停止服务。最终导致了上图的严肃处理。

二 这个机房是啥样的
我搜了一下,南沙机房介绍:



机房是电信五星级IDC机房,通过了ISO27001信息安全体系认证。
机房拥有独立产权楼宇,建筑耐火等级一级,抗震设防烈度8度,基础配套设施及后勤配套设施完备,Tier III+ 机房设计标准
数据中心丰富的光缆及网络资源;电信、联通、移动多运营商接入




首层高安装油机、中央空调系统; 二层装高压系统、空调 及油机配电系统;三-九层划分南北两个片区,安装IDC机架 和UPS系统;楼层的四角位置分别规划为监控、消防等配套。
_____________________________________________________________________________
机房承重设计为普通区域承重能力800KG/平方米,电力室区域承重能力为1000KG/平方米。
机房层高≥5米,机房梁下静高4.7米,抗震等级为8级。
并具备抵御强烈风暴雷击的能力,接地网严格接地,接地电阻<1Ω,具备抗静电能力。
_____________________________________________________________________________
机房面积5800平米,分为4个模块,模块A有566个机柜,模块B有450机柜,模块C有202个机柜,模块D有29个机柜(核心设备模块),合计1000个机柜。

标准机柜42个U位,尺寸为600*1200*2000(宽mm*深mm*高mm)
可以说是非常强悍的机房,这一出事故,影响得有多大?

三 除了唯品会还有谁受影响
据媒体报道,3 月 29 日凌晨,大量网友发微博称,微信登陆不上了!
包括微信语音、账号登录、朋友圈,以及微信支付,都无法正常使用。
最惨的是,还有人聊天记录再次被清空 。。。
腾讯旗下的:QQ 文件传输、QQ 空间、QQ 邮箱等,都出现了问题,持续时间还很长!
微信崩了,也带崩了打工人:当日工作进程,0。
" 一早回去,电脑微信上不了,浪费了一个小时的宝贵工时,今晚要加班了。"
资料都没了,打工人哭了。
有网友表示,微信崩了还自动删了自己的朋友圈。
这个事影响很大,腾讯还被工信部点名了,要求腾讯公司进一步健全安全生产管理制度、落实网络运行保障措施,坚决避免发生重大安全生产事故。

所以,不光是唯品会被影响,技术大厂强如腾讯,也不能幸免。

四 一个机房宕机的影响会有多大?
我的好友,某社交平台基础架构技术总监表示,能引起这么长时间的故障可能是微服务架构体系受到影响,比如微服务的元数据存储中心不可用且客户端没有数据缓存。
也可能是缓存中心的大面积失效且未做有效切换,进而导致数据库被穿透引发雪崩不断打死。
另外假设存储平台的高可用切换机制受到影响,导致核心存储无法切换进而db 读写受到影响无法正常工作也能引起较大级别故障。

五 应对策略
高可用架构师群讨论非常热烈。
A : “看来空调也要做灾备,或者,系统真的能实现至少两地三中心,否则早晚出事。
按照我的理解,其实认真做灾备的公司应该很少,成本高,不出事时完全没收益,人性嘛,不死到临头,或者受到足够的伤害,是不会为此发大笔钱的”
T:“搞个牛逼灾备,花的不止一个亿,这年头,大基调是降本”

某社交平台基础架构技术总监表示,对于这么大体量(以唯品会的体量至少千级服务 万级pod )的基础架构如何能保障长期正常工作?
1、对核心架构例如微服务架构,缓存架构,存储架构进行有效设计确保各个环节的可用性。
这需要对核心架构实现细节有很高的把控,缓存架构对缓存容量, 缓存失效,穿透,多级缓存,数据一致性等设计都有较多考量。
存储架构如高可用设计,多机房数据同步切换,读写分离容错等都是常规必备架构设计了。
2 、在完成以上架构改进后,很重要一点还需要不断进行架构演练,故障演练确保问题发生后能正常工作,除人工演练外对自动化演练业内不少公司也在推例如混沌工程等稳定性工作。
3、 很多人说对机房故障那直接上多机房多活架构不就完了,对这些同学我想表达的是多机房架构的有效落地及其复杂。
涉及到客户端,接入层,微服务架构,存储架构等等改进,依赖的基础架构设施等都需要做冗余架构设计。
最难的是存储层的有效切换设计,切换后如何能保障数据的一致性是比较难的,最终即使落地也是打折扣的多活甚至只能做到小时级容灾而已……
还有很关键的一点是多活架构对于IT 成本的巨大支出,存储至少需要双倍冗余架构。
其它服务层虽然可通过混合云等弹性扩容方式但至少也需要百分之40以上的冗余,对唯品会这样的体量至少都是上亿的支持以及每年千万级的新增投入,这个预算拍到老板那估计也得想半天……
更多分析见他的公众号:服务端架构

他分析得已经非常全面了,以我在熊猫直播从开始公测秒崩,到加班通宵优化,三年没有出现全范围宕机的经验再来补充几点:
1、至少要做到核心微服务及存储双机房部署。关键时刻核心节点数据库和缓存从库切成主库,一致性可以回头再修,减少当前资金损失。
2、首页、商详页静态化。在nginx 那层就缓存一份固定数据,80%的热点不崩,就不至于一个机房宕机,大流量穿透时另外机房压力过大雪崩。
3、购物车、支付服务等非常核心服务做到微服务隔离,做到异地多活,最小代价做高可用,避免P0故障
六 结语
各个平台的促销拉开序幕之际,开发和运维人员都面临巨大的挑战。
伴随着#唯品会崩了相关负责人被免职#等话题再次引发大家关注,有不少网友借此表达了对程序员职业的关怀:
“服务器宕机这个事情挺正常的,辛苦开发人员们维护了”;
“我曾经是程序员,知道维护的不易,请给程序员们加工资”。

希望各大公司层面重视系统可用性,给到足够运维费用;研发同学自身也加强技术学习和演练,多跟兄弟公司交流,做好异地多活系统建设,不再害怕大促事故。

我是架构师刀哥,工作13年,大厂架构师,聊职场聊编程,关注我,带你迈进高端技术岗。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
Sungzu 发表于 2023-8-17 16:20:24|来自:北京 | 显示全部楼层
像这么大规模的公司,出了这件事,负责人应该对平台的稳定性和安全性负有责任,因此也应该为事件负起相应的责任。我觉得这种处罚也可能是为了促使唯品会采取相应的措施来解决平台崩溃的问题,同时也是完善运营和管理体系,平台自己也能够吸取教训,继续提高平台的可靠性和用户体验。总而言之,对平台重建信任是很重要的,对于唯品会来说,这也是恢复声誉和保持竞争力的核心点。
导航网络 发表于 2023-8-17 16:20:55|来自:北京 | 显示全部楼层
1亿元?我长这么大,身边一个用唯品会的没有
梦幻儿 发表于 2023-8-17 16:21:01|来自:北京 | 显示全部楼层
只能说,是一个很好的营销文案。通过“小题大做”、“无风起浪”,硬是把无人关心的芝麻小事,搞成好像天下大事。
1、唯品会是私人企业,与公务单位不同,只要不直接损害社会公共利益和消费者利益,其内部管理如何,并没有多少人关心。如果不好用,买不了,有钱还怕买不到东西?换一家就是。
2、唯品会相对于京东、拼多多、淘宝,无疑是二线平台。很多人并不知道,更没有用过。它的网站崩溃,也没有多人知情。
3、小题大做。经过一出处罚大戏,并将其送上热搜,硬是把原本少人知晓,大家也不关心的小事,搞成尽人皆知。不仅让不少人第一次听说了唯品会,而且还变相宣传它11小时的营销额就超过1个亿,涉及800万客户。这个热搜,我估计也是营销的结果。
4、你问我对处罚有什么评价,只有一个字:“高”。要是真去回答有关人员应负何等责任,我就傻了。不过,营销策划固然成功了,只是受众不知不觉中都成了被营销对象。就像我本人写了这个帖子,事实上也已被营销。如果是明白人,被营销心里肯定是不爽的。营销策划赌的就是明白人少吧。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则