修改日期 | 修改人 | 备注 |
2021-01-20 14:18:27[当前版本] | 文艺范儿 | 格式调整 |
2020-03-29 21:35:53 | wyasw | 创建版本 |
2019-0801- 事故报告单
名称 |
xx系统更新时间延长由半小时延长至一小时三十分 |
日期 |
2019/08/01 |
发现 |
2019 年8月1日 1) 08:30 开始按照文档更新项目。 2 )08:41开始更新business后,按照文档,curl进行修复数据,由于线上有11W数据,一直跑到09:06,持续25分钟,继续更新其他程序 3 )09:15更完其他程序,并启动nginx。开发发现问题,需要修改commission程序,停止nginx,开发给完更新包,更新后,发现启动不成功,再次修改程序,启动。直到09:50程序启动成功,启动nginx,恢复业务。 4 )09:55发现堡垒机连接太卡。 |
分析 |
1 )业务中心首次启动失败 原因: 更新业务中心时,需要预加载的业务数据超出预估值,造成业务系统启动时负载过大,启动失败 2 )网络短时间阻塞导致堡垒机连接太卡和前端访问卡 原因: 由于APP更新包放置在应用服务器上,强制更新时,短时间内将所有带宽占满,造成短时间内多个系统访问失败,运维人员访问服务器时太卡,以至于无法操作 |
应急解决 |
1 )业务中心首次启动失败 应用的临时修复方案: 放弃“初始化”状态订单的预加载,减少预加载数据 永久修复方案: 开发人员待定 2 )网络短时间阻塞导致堡垒机连接太卡和前端访问卡 应用的临时修复方案: 机房增加带宽,加快网络疏通 永久修复方案: apk 和ipa文件添加到cdn缓存,让用户用cdn缓存下载。 |
后续 |