IT博文
MySQL 事务隔离级别详解
使用 docker compose 安装 tidb
架构师日记-如何写的一手好代码
生产事故-记一次特殊的OOM排查
Docker安装RabbitMQ——基于docker-compose工具
使用 docker-compose 部署单机 RabbitMQ
只需3步,即刻体验Oracle Database 23c
长达 1.7 万字的 explain 关键字指南!
Redis为什么能抗住10万并发?揭秘性能优越的背后原因
深度剖析Redis九种数据结构实现原理
【绩效季】遇到一个好领导有多重要,从被打差绩效到收获成长
为什么Redis不直接使用C语言的字符串?
Java阻塞队列中的异类,SynchronousQueue底层实现原理剖析
如何调整和优化 Go 程序的内存管理方式?
应用部署引起上游服务抖动问题分析及优化实践方案
Java 并发工具合集 JUC 大爆发!!!
卷起来!!这才是 MySQL 事务 & MVCC 的真相。
JDK8 到 JDK17 有哪些吸引人的新特性?
告别StringUtil:使用Java 11的全新String API优化你的代码
从JDK8飞升到JDK17,再到未来的JDK21
Java JMH Benchmark Tutorial
linux和macOS下top命令区别
Windows10关闭Hyper-V的三种方法
为什么应该选择 POSTGRES?
阿里云对象存储 OSS 限流超过阈值自动关闭【防破产,保平安】
Java高并发革命!JDK19新特性——虚拟线程(Virtual Threads)
“请不要在虚拟机中运行此程序”的解决方案
Spring中的循环依赖及解决
浅谈复杂业务系统的架构设计 | 京东云技术团队
面试题:聊聊TCP的粘包、拆包以及解决方案
操作日志记录实现方式
字节跳动技术团队-慢 SQL 分析与优化
Spring Boot 使用 AOP 防止重复提交
Controller层代码就该这么写,简洁又优雅!
SpringBoot 项目 + JWT 完成用户登录、注册、鉴权
重复提交不再是问题!SpringBoot自定义注解+AOP巧妙解决
SpringBoot 整合 ES 实现 CRUD 操作
SpringBoot 整合 ES 进行各种高级查询搜索
SpringBoot操作ES进行各种高级查询
SpringBoot整合ES查询
如何做架构设计? | 京东云技术团队
最值得推荐的五个VPN软件(便宜+好用+稳定),靠谱的V2ray梯子工具
我说MySQL每张表最好不超过2000万数据,面试官让我回去等通知?
vivo 自研鲁班分布式 ID 服务实践
使用自带zookeeper超简单安装kafka
推荐 6 个很牛的 IDEA 插件
喜马拉雅 Redis 与 Pika 缓存使用军规
「程序员转型技术管理」必修的 10 个能力提升方向
jdk17 下 netty 导致堆内存疯涨原因排查 | 京东云技术团队
如何优雅做好项目管理?
MySQL 到 TiDB:Hive Metastore 横向扩展之路
聊聊即将到来的 MySQL5.7 停服事件
Linux终端环境配置
微软 Edge 浏览器隐藏功能一览:多线程下载、IE 模式、阻止视频自动播放等
Hutool 中那些常用的工具类和实用方法
clash 内核删库?汇总目前常用的内核仓库和客户端
JDK11 升级 JDK17 最全实践干货来了 | 京东云技术团队
我是如何写一篇技术文的?
虚拟线程原理及性能分析
Java线程池实现原理及其在美团业务中的实践
Editplus和EmEditor配置一键编译java运行环境
用Spring Boot 3.2虚拟线程搭建静态文件服务器有多快?
SpringBoot中使用LocalDateTime踩坑记录 - 程序员偏安 - 博客园
程序员必备!10款实用便捷的Git可视化管理工具 - 追逐时光者 - 博客园
基于Netty开发轻量级RPC框架
开发Java应用时如何用好Log
复杂SQL治理实践 | 京东物流技术团队
火山引擎ByteHouse:分析型数据库如何设计并发控制?
多次崩了之后,阿里云终于改了
推荐程序员必知的四大神级学习网站
初探分布式链路追踪
新项目为什么决定用 JDK 17了
Java上进了,JDK21 要来了,并发编程再也不是噩梦了
mapstruct这么用,同事也开始模仿
再见RestTemplate,Spring 6.1新特性:RestClient 了解一下!
【MySQL】MySQL表设计的经验(建议收藏)
如何正确地理解应用架构并开发
解读工行专利CN112905176B
工商银行取得「基于 Spring Boot 的 web 系统后端实现方法及装置」专利
IDEA 2024.1:Spring支持增强、GitHub Action支持增强、更新HTTP Client等
TIOBE 2 月:Go 首次进入前十、“上古语言” COBOL 和 Fortran 排名飙升
Java 21 虚拟线程如何限流控制吞吐量
🎉 通用、灵活、高性能分布式 ID 生成器 | CosId 2.6.6 发布
20年编程,AI编程6个月,关于Copliot辅助编码工具,你想知道的都在这里
Java 8 内存管理原理解析及内存故障排查实践
消息队列选型之 Kafka vs RabbitMQ
从 MongoDB 到 PostgreSQL 的大迁移
腾讯云4月8日故障复盘及情况说明
PHP 在 2024 年还值得学习吗?
AMD集显安装显卡驱动之后出现黑屏,建议这样解决
使用 Docker 部署 moments 微信朋友圈 - 谱次· - 博客园
Java 17 是最常用的 Java LTS 版本
盘点Lombok的几个骚操作
Llama 3 + Ollama + Open WebUI打造本机强大GPT
如何优雅地编写缓存代码
Gmeek快速上手
笔记软件思源远程和本地接入大语言模型服务Ollama实现AI辅助写作(Windows篇)
Git Subtree:简单粗暴的多项目管理神器
这款轻量级规则引擎,真香!!
Ollama教程:本地LLM管理、WebUI对话、Python/Java客户端API应用
GLM-4-9B支持 Ollama 部署
智谱AI开源代码生成大模型第四代版本:CodeGeeX4-ALL-9B
美团二面:如何保证Redis与Mysql双写一致性?连续两个面试问到了!
免费开源好用,Obsidian和Omnivore真正实现一键联动剪藏文章,手把手教程!
得物 Redis 设计与实践
架构图怎么画?手把手教您,以生鲜电商为例剖析业务/应用/数据/技术架构图
使用Hutool要注意了!升级到6.0后你调用的所有方法都将报错 - 掘金
别再用雪花算法生成ID了!试试这个吧
无敌的Arthas!
Navicat Premium v16、v17 破解激活
🎉 分布式接口文档聚合,Solon 是怎么做的?
深入体验全新 Cursor AI IDE 后,说杀疯了真不为过!
Nacos 3.0 架构全景解读,AI 时代服务注册中心的演进
本文档使用 MrDoc 发布
-
+
生产事故-记一次特殊的OOM排查
> 入职多年,面对生产环境,尽管都是小心翼翼,慎之又慎,还是难免捅出篓子。轻则满头大汗,面红耳赤。重则系统停摆,损失资金。每一个生产事故的背后,都是宝贵的经验和教训,都是项目成员的血泪史。为了更好地防范和遏制今后的各类事故,特开此专题,长期更新和记录大大小小的各类事故。有些是亲身经历,有些是经人耳传口授,但无一例外都是真实案例。 > > 注意:为了避免不必要的麻烦和商密问题,文中提到的特定名称都将是化名、代称。 ## 0x01 事故背景 2023年3月10日14时19分,C公司开发人员向A公司开发人员反映某开放接口从2023年3月10日14时许开始无法访问和使用。该系统为某基础数据接口服务,基于 HTTP 协议进行通信。按照惯例,首先排查网络是否异常,经运维人员检查,证明网络连通性没有问题。A公司开发组于2023年3月10日14时30分通知运维人员重启应用服务,期间短暂恢复正常。但是,很快,十分钟后,电话再次响起,告知服务又出现异常,无法访问。为了避免影响进一步扩大,A公司决定将程序紧急回滚至上一稳定版本。回滚后,系统业务功能恢复正常。短暂松一口气后,开始排查问题。 ## 0x02 事故分析 让运维拷贝和固定了更新前后的系统日志和应用包。根据前面的故障现象,初步猜测是内存问题,好在应用启停脚本中增加了参数`-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/app/logs/app.dump`(对于无法在生产环境上使用`jstack`、`jmap`等命令直接查错的——事实上大多数时候都不能,`dump`文件显得尤为重要),果不其然,日志目录下出现了`app.dump`文件,在日志中搜索,找到了若干处内存溢出错误`java.lang.OutOfMemoryError: Java heap space`,但是令人费解的是每次出现`OOM`错误的位置居然都不一样,事情逐渐变得复杂起来。 用_MAT(Memory Analyzer Tool)_工具打开转储文件,原以为会发现某个类型对象占用大量的内存,结果出乎意料,Histogram(直方图)中显示活跃对象居然只有100多M!尝试 Calculate Precise Retained Size(计算精确大小),计算结果与前面相差不大。检查 Outgoing References (追踪引用对象)和 Incoming References(追踪被引用对象)也未见明显异常,令人头大。 擦擦汗,日志已经明确提示我们`java.lang.OutOfMemoryError: Java heap space`,首先肯定这是一个堆内存空间引起的问题,可能的原因有: - 内存加载数据量过大 例如不受行数限制的数据库查询语句,或者不限制字节数的文件读取等,事故系统显然没有这些情况; - 内存泄漏(资源未关闭/无法回收) 当系统存在大量未关闭的 IO 资源,或者错误使用`ThreadLocal`等场景时也会发生`OOM`,经排查,也不存在这种情况; - 系统内存不足 系统内存不足以支撑当前业务场景所需要的内存,过小的机器内存或者不合理的_JVM_内存参数。 如果排除所有合理选项,最不合理那个会不会就是答案呢?遂开始检查机器的内存,根据运维的说法,机器内存为16GB,`top`命令查看`java`进程占用内存约为7.8GB,看起来似乎没毛病。 但是随后另一个同事注意到了一个事情,最后一次系统升级的时候,改动过应用启停脚本,对比旧版本的脚本,发现差异部分就是内存参数: 旧版本原为: ```shell -Xms8g -Xmx8g -Xmn3g ``` 新版本改为: ```shell -Xms8g -Xmx8g -Xmn8g ``` 看到这里,屏幕前的一众同事都无语啊…… ## 0x03 事故原因 为什么`-Xmn`参数设置成与`-Xmx`参数一样的大小会导致`OOM`呢?该项目使用的_JDK_版本为1.8,看看_JDK 8_的内存模型:  不难发现,`Heap Space Size = Young Space Size + Old Space Size`,而`-Xmn`参数控制的正是 Young 区的大小,当堆区被 Young Gen 完全挤占,又有对象想要升代到 Old Gen 时,发现 Old 区空间不足,于是触发 Full GC,触发 Full GC 以后呢,通常又会面临两种情况: - Young 区又刚好腾出来一点空间,对象又不用放到 Old 区里面了,皆大欢喜 - Young 区空间还是不够,对象还是得放到 Old 区,Old 区空间不够,卒,喜提`OOM` - 诶,就是奔着 Old 区去的,管你 Young 不 Young,Old 区空间不够,卒,喜提`OOM` 这个就解释了为什么系统刚刚启动时,会有一个短时间正常工作的现象,随后,当某段程序触发 Old Gen 升代时,就会发生随机的`OOM`错误。那么什么时候对象会进入老年代呢?这里也很有意思,不妨结合日志里面出现`OOM`的地方,对号入座: - 经历足够多次数 GC 依然存活的对象 - 申请一个大对象(比如超过 Eden 区一半大小) - GC 后 Eden 区对象大小超过 S 区之和 - Eden 区 + S0 区 GC 后,S1 区放不下 换言之,正常情况下,`-Xmn`参数总是应当小于`-Xmx`参数,否则就会触发`OOM`错误。我们可以构造一个简单的例子来验证这个场景。首先是一个简单的`SpringBoot`程序: ```java package com.example.oom; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; import org.springframework.web.bind.annotation.GetMapping; import org.springframework.web.bind.annotation.RestController; import java.util.Random; @SpringBootApplication public class OomApplication { static final byte[] ARRAY = new byte[128 * 1024 * 1024]; public static void main(String[] args) { SpringApplication.run(OomApplication.class, args); } @RestController public static class OomExampleController { @GetMapping("/oom") public int oom() { byte[] temp = new byte[128 * 1024 * 1024]; temp[0] = (byte) 0xff; temp[temp.length - 1] = (byte) 0xef; int noise = new Random().nextInt(); ARRAY[0] = (byte) (temp[0] + temp[temp.length - 1] + noise); return ARRAY[0]; } } } ``` 使用`mvn clean package`命令打包后,我们用下面的命令启动它: ```shell java -Xms512m -Xmx512m -Xmn512m -XX:+HeapDumpOnOutOfMemoryError -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintHeapAtGC -Xloggc:gc.log -jar oom-1.0.0-RELEASE.jar ``` 然后借助_Apache_的_ab.exe_,完成我们的验证测试。先是以1个并发访问100次上面的`SpringBoot`接口: ```shell ab -c 1 -n 100 http://localhost:8080/oom ``` 你会发现,它居然是可以正常运行的,然后我们模拟用户负载上来之后的情况,使用2个并发访问100次: ```shell ab -c 2 -n 100 http://localhost:8080/oom ``` 如果前面的步骤都没错,此时应该在`SpringBoot`应用控制台看到大量的OOM错误,如下图所示:  然后在 GC 日志里面会看到,触发 GC 的前后,Old 区几乎都没有空间,仅有的一点点还是_JDK_强行分配的(在启动_JVM_时强制覆写了我们的`-Xmn`参数): ```log {Heap before GC invocations=279 (full 139): PSYoungGen total 458752K, used 273877K [0x00000000e0080000, 0x0000000100000000, 0x0000000100000000) eden space 393728K, 69% used [0x00000000e0080000,0x00000000f0bf5798,0x00000000f8100000) from space 65024K, 0% used [0x00000000fc080000,0x00000000fc080000,0x0000000100000000) to space 65024K, 0% used [0x00000000f8100000,0x00000000f8100000,0x00000000fc080000) ParOldGen total 512K, used 506K [0x00000000e0000000, 0x00000000e0080000, 0x00000000e0080000) object space 512K, 98% used [0x00000000e0000000,0x00000000e007e910,0x00000000e0080000) Metaspace used 35959K, capacity 38240K, committed 38872K, reserved 1083392K class space used 4533K, capacity 4953K, committed 5080K, reserved 1048576K 2023-04-07T01:44:25.348+0800: 57.446: [GC (Allocation Failure) --[PSYoungGen: 273877K->273877K(458752K)] 274384K->274384K(459264K), 0.0441401 secs] [Times: user=0.06 sys=0.30, real=0.04 secs] Heap after GC invocations=279 (full 139): PSYoungGen total 458752K, used 273877K [0x00000000e0080000, 0x0000000100000000, 0x0000000100000000) eden space 393728K, 69% used [0x00000000e0080000,0x00000000f0bf5798,0x00000000f8100000) from space 65024K, 0% used [0x00000000fc080000,0x00000000fc080000,0x0000000100000000) to space 65024K, 9% used [0x00000000f8100000,0x00000000f86e2070,0x00000000fc080000) ParOldGen total 512K, used 506K [0x00000000e0000000, 0x00000000e0080000, 0x00000000e0080000) object space 512K, 98% used [0x00000000e0000000,0x00000000e007e910,0x00000000e0080000) Metaspace used 35959K, capacity 38240K, committed 38872K, reserved 1083392K class space used 4533K, capacity 4953K, committed 5080K, reserved 1048576K } {Heap before GC invocations=280 (full 140): PSYoungGen total 458752K, used 273877K [0x00000000e0080000, 0x0000000100000000, 0x0000000100000000) eden space 393728K, 69% used [0x00000000e0080000,0x00000000f0bf5798,0x00000000f8100000) from space 65024K, 0% used [0x00000000fc080000,0x00000000fc080000,0x0000000100000000) to space 65024K, 9% used [0x00000000f8100000,0x00000000f86e2070,0x00000000fc080000) ParOldGen total 512K, used 506K [0x00000000e0000000, 0x00000000e0080000, 0x00000000e0080000) object space 512K, 98% used [0x00000000e0000000,0x00000000e007e910,0x00000000e0080000) Metaspace used 35959K, capacity 38240K, committed 38872K, reserved 1083392K class space used 4533K, capacity 4953K, committed 5080K, reserved 1048576K 2023-04-07T01:44:25.392+0800: 57.490: [Full GC (Ergonomics) [PSYoungGen: 273877K->142631K(458752K)] [ParOldGen: 506K->506K(512K)] 274384K->143137K(459264K), [Metaspace: 35959K->35959K(1083392K)], 0.0248171 secs] [Times: user=0.14 sys=0.00, real=0.03 secs] ``` 接着无需改动任何代码,我们调整下启动参数,像这样: ```shell java -Xms512m -Xmx512m -Xmn64m -XX:+HeapDumpOnOutOfMemoryError -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintHeapAtGC -Xloggc:gc.log -jar oom-1.0.0-RELEASE.jar ``` 你会发现它又可以了。这是一个为了验证而打造的极端例子,实际上生产的应用情况会比这个复杂得多,但这并不妨碍我们理解它的意图。 ## 0x04 事故复盘 这是一场典型的”人祸“,来源于某个同事的”调优“,比起追究责任,更重要的是带给我们的启发: - 即使是应用启停脚本,也应该作为程序的一部分,纳入测试验证流程和上线检查清单,禁止随意变更; - 很多时候,默认的就是最好的,矫枉则常常过正。 ## 0x05 事故影响 造成C公司关键业务停摆半小时,生产系统紧急回滚一次。A公司相关负责人连夜编写事故报告一份。 作者:程语有云 出处:[https://www.cnblogs.com/mylibs/p/production-accident-0002.html](https://www.cnblogs.com/mylibs/p/production-accident-0002.html) 版权:本作品采用「[署名-非商业性使用-相同方式共享 4.0 国际](https://creativecommons.org/licenses/by-nc-sa/4.0/)」许可协议进行许可。
admin
2023年4月8日 06:37
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档(打印)
分享
链接
类型
密码
更新密码