项目实战典型案例11——生产环境重大事故
创始人
2025-05-29 09:27:26

生产环境重大事故

  • 一:背景介绍
  • 二:思路&方案
    • 对于问题1-4的思路&方案
    • 对于问题5的思路&方案
  • 四:总结

一:背景介绍

对于arpro这个项目。生产环境上布置了两套环境,一套A环境,一套B环境。
这样做的意义是如果线上A环境出现意料之外的问题(A环境大面积崩溃不可用,A环境服务器出现问题等等)我们能够立即切换B环境供用户进行使用。
A环境与B环境是完成一致的。

这一次arpro生产环境出现好几个重大的问题。

  1. 生产A环境没有及时进行构建,导致生产A环境与生产B环境版本不一致
  2. 禅道上2022年5月1日的发版日志没有关联需求,导致发版流程上出现疏漏,会影响此后的发版流程。
  3. B环境构建异常,没有及时进行处理,导致将影响项目的及时发版。
  4. 目前线上运行的是B环境,实际应该运行A环境;没有及时做升级的切换。
  5. 系统跑一段时间,内容占用会随时间的增加而剧增;大约在一周左右时间内存会达到系统不可用(这里的一周时间说的是现在的业务量,可能随着业务量的增加时间会缩短)

在这里插入图片描述
在这里插入图片描述

二:思路&方案

上面问题1—4都是偏向于生产发版的问题 ,问题5偏向于技术问题。

对于上面的五个问题,我们都需要清楚生产环境不是儿戏需要有足够的责任心。需要对生产环境有一份敬畏之心。

对于问题1-4的思路&方案

在明确生产环境有两套环境的价值和意义;生产环境的重要性的基础上。
流程制度上

  1. 有严格的上线流程,完成一项勾选一项
  2. 有严格的上线审批流程,审批通过之后才能进行后续的上线操作
  3. 有严格的闭环流程(如环境检测,上线后的测试)
  4. 只有具有一定职级的人可以操作生产环境的构建

上线流程示例:
在这里插入图片描述

在这里插入图片描述

对于问题5的思路&方案

一般的原因是代码中存在不合理的情况,导致创建出了大对象,对象一直存在着引用导致GC无法进行回收,随着时间这些无法被回收的对象越来越多导致内存逐渐上升。

对于这类问题需要具体分析可以通过打印jvm快照的方式生成dump文件,可以使用jdk1.8自带的内存分析工具Jvisual进行内存分析。寻找照成内存上升的原因。

四:总结

  1. 对生产环境有一份敬畏之心
  2. 通过一定的形式来保证内容
  3. 通过划分角色来进行权限隔离

相关内容

热门资讯

伊朗:特朗普“极度渴望”达成协... 央视新闻消息,伊朗伊斯兰议会议长卡利巴夫17日在社交媒体发文称,霍尔木兹海峡的控制权属于伊朗,这一事...
伊朗:特朗普7项社媒声明“均不... 新华社消息,伊朗伊斯兰议会议长卡利巴夫18日凌晨在社交媒体发文称, 美国总统特朗普此前在1小时内于社...
特朗普称将很快发布第一批UFO... △美国总统特朗普(资料图) 美国总统特朗普17日在一场集会活动上表示,他领导的政府找到了许多关于不明...
伊朗发布霍尔木兹海峡通行新规 伊朗伊斯兰革命卫队海军司令部17日晚在社交媒体发布船舶在霍尔木兹海峡通行的新规定。伊朗国防部发言人后...
法国与英国牵头召开国际会议讨论... 中新社巴黎4月17日电 (记者 李洋)法国与英国当地时间17日在巴黎牵头召开国际会议讨论霍尔木兹海峡...