简介
Garbage collection is the JVM’s process of freeing up unused Java objects in the Java heap.The Java heap is where the objects of a Java program live. It is a repository for live objects, dead objects, and free memory. When an object can no longer be reached from any pointer in the running program, it is considered “garbage” and ready for collection.
有一个梗:说在食堂里吃饭,吃完把餐盘端走清理的是 C++ 程序员,吃完直接就走的是 Java 程序员。
进程不同的区域存储不同性质的数据,除了程序计数器区域不会OOM外,其它的都有可能因为存储本区域数据过多而OOM。
jvm 提供自动垃圾回收机制,但免费的其实是最贵的,一些追求性能的框架会自己进行内存管理。资源的分配与回收——池
内存回收
所谓gc 就是一个内存管理、分配与回收的问题,因此可以跟操作系统的 内存分配回收 做一个对比。
回收分两步:
- 查找内存中不再使用的对象。引用计数、根搜索
- 释放这些对象占用的内存
如何判断对象已经死亡
对象是否存活,是由整体应用其它部分是否对其有引用决定的。
-
引用计数法
记录对象被引用的次数
-
可达性分析算法
以一系列GC Roots对象作为起点,从这写节点向下检索,当GC Roots到这些对象不可达时,则证明此对象是不可用的。
GC Roots
- 虚拟机栈(栈帧中的本地变量表)中引用的对象。因为这一点,引发了“变量不用时,是否要专门为其赋值为null” 的讨论,参见Java中当对象不再使用时,不赋值为null会导致什么后果 ?,即局部变量作用域虽然已经结束,但仍存在于运行时栈中(方法还未运行结束),被GC 判断为对象仍然是存活的。
- 方法区中类静态属性引用的对象
- 方法区中常量引用的对象
- 本地方法栈中 JNI(即一般说的 Native 方法)引用的对象
回收已死对象所占内存区域
极客时间《深入拆解Java虚拟机》垃圾回收的三种方式
- 清除sweep,将死亡对象占据的内存标记为空闲,回收被标记的对象。一般通过空闲链表/free list的方式,工作量和堆大小成正比。
- 压缩,将存活的对象聚在一起,需要将所有对象的引用指向新位置,工作量和存活对象量成正比。
- 复制,将内存两等分,同一时间只利用其中一块来存放对象。说白了是一个以空间换时间的思路。
基本假设:部分的 Java 对象只存活一小段时间,而存活下来的小部分对象则会存活很长一段时间。这个假设造就了 Java 虚拟机的分代回收思想。PS:想提高效率就要限定问题域(优化都是针对特定场景的优化),限定问题域就要充分的发掘待解决问题的特征。
上面三种回收算法,各有各的优缺点,既然优缺点不可避免,那就是将它们用在特定的场合扬长避短。java 虚拟机将堆分为新生代和老年代,并且对不同代采用不同的垃圾回收算法
java垃圾收集器的历史
- Serial(串行)收集器
- Parallel(并行)收集器
- CMS(并发)收集器
- G1(并发)收集器,G1将新生代,老年代的物理空间划分取消了。是的,我们掌握的所有知识都在快速变化
- Java垃圾回收器是一种“自适应的、分代的、停止—复制、标记-清扫”式的垃圾回收器。
- 在G1中没有物理上的Yong(Eden/Survivor)/Old Generation,它们是逻辑的,使用一些非连续的区域(Region)组成的。上文说 gc 在分代上 降低粒度。在这里, 回收的过程多个回收线程并发收集,划分region 在物理空间上降低了并发的粒度。
堆内存分代
gc 是有成本的,你挪了对象的位置, 在gc 期间,应用线程是不能工作的(因为引用指向的值都不对了)。因此要降低gc 的粒度。
内容 | gc | ||
---|---|---|---|
新生代 | |||
eden | 不定时,主要是eden空间不够时,Scavenge GC | ||
survivor0 | gc后,eden存活的对象 | ||
survivor1 | 大部分对象在Eden区中生成。回收时先将eden区存活对象复制到一个survivor0区,然后清空eden区,当这个survivor0区也存放满了时,则将eden区和survivor0区存活对象复制到另一个survivor1区,然后清空eden和这个survivor0区,此时survivor0区是空的,然后将survivor0区和survivor1区交换,即保持survivor1区为空, 如此往复。 | ||
空间不够时,老年代 | survivor1空间不够时转移的数据 | full gc | |
持久代 | 用于存放静态文件,如Java类、方法等 |
所以,我们讲一个对象的生存期,关键就是看谁在引用它,背靠的大佬有多深。
堆外内存
分配 | 回收 | |
---|---|---|
堆内存 | new | gc机制 |
直接内存 | 显式分配 | 代码主动回收或基于system.gc回收 |
内存泄漏
一个最简单的C的内存泄漏的例子:
char *ptr1 = (char *)malloc(10);
char *ptr2 = (char *)malloc(10);
ptr2 = ptr1;
free(ptr1)
一开始ptr2指向的那块内存发生了泄漏,没人用了,因为没有指针指向,用不了,却又回收不掉(内存管理数据结构,一直记录此块内存是被分配的)。
What is a PermGen leak?a memory leak in Java is a situation where some objects are no longer used by an application, but the Garbage Collector fails to recognize them as unused. This leads to the OutOfMemoryError if those unused objects contribute to the heap usage significantly enough that the next memory allocation request by the application cannot be fulfilled.
如何分析内存泄漏,精确到对象?用弱引用堵住内存泄漏 关注hprof工具, google 分析程序内存和cpu 使用的工具:gperftools
内存泄漏既可以是堆内也可以是堆外内存,还可以是PermGen/MetaspaceWhat is a PermGen leak?
如上图所示,如果一个对象 被另一个有效对象引用,则其Class 对象、Class 对象引用的ClassLoader对象、ClassLoader对象引用的所有归其加载的Class对象也将“可达”,可能导致不需要的Class无法被“卸载”。
引用和内存回收
比较netty 引用 + arena 一套和java 四种引用 + gc一套的关系。
未完成:netty 引用计数和arena
- 程序有内存泄漏的第一个迹象通常是它抛出一个 OutOfMemoryError,或者因为频繁的垃圾收集而表现出糟糕的性能。
- 用一个普通的(强)引用拷贝一个对象引用时,限制 referent 的生命周期至少与被拷贝的引用的生命周期一样长。如果不小心,将一个对象放入一个全局集合中的话,那么它可能就与程序的生命周期一样(也就是对对象引用的操作会影响对象的生命周期)。另一方面,在创建对一个对象的弱引用时,完全没有扩展 referent 的生命周期,只是在对象仍然存活的时候,保持另一种到达它的方法。
- 引用队列是垃圾收集器向应用程序返回关于对象生命周期的信息的主要方法。如果创建弱引用时将弱引用与引用队列关联,则当referent被回收时,gc会将弱引用加入到引用队列中。
规避GC
- 对象池
- 堆外内存/offheap。堆外内存其实并无特别之处,线程栈,应用程序代码,NIO缓存用的都是堆外内存。事实上在C或者C++中,你只能使用堆外内存/未托管内存,因为它们默认是没有托管堆(managed heap)的。PS:笔者之前总是把“堆外” 当成了jvm进程外内存。
- jvm 堆内内存或者堆内的对象 都包含 mark word 等数据,用于辅助线程争用、gc回收等功能实现。也因此,网络io 数据读取到堆内 时需要经过 “内核 ==> 进程用户态 ==> 堆内” 两次拷贝。没有第二次拷贝,io 数据(也就是
byte[]
) 在堆内是没有 mark word的。 - 堆外内存则是纯粹的
byte[]
空间。jvm 首先是一个 C++ 进程,jvm 所占用的内存并不是 C++ 进程占用的所有内存。
- jvm 堆内内存或者堆内的对象 都包含 mark word 等数据,用于辅助线程争用、gc回收等功能实现。也因此,网络io 数据读取到堆内 时需要经过 “内核 ==> 进程用户态 ==> 堆内” 两次拷贝。没有第二次拷贝,io 数据(也就是