首页 > 技术文章 > HashMap源码分析

DarkSki 2021-12-26 15:41 原文

参考文章:

https://zhuanlan.zhihu.com/p/95156642

https://blog.csdn.net/woshimaxiao1/article/details/83661464

一、HashMap

1、概述

(1)数据的物理存储结构只有两种

  • 顺序存储
  • 链式存储

栈,队列,树,图等数据结构是从逻辑结构中抽象出来,映射到内存中

(2)数组

采用一段连续的内存空间来存储数据,占用内存严重

特点:寻址容易,插入和删除困难

(3)链表

存储区间离散,占用内存比较宽松

特点:寻址困难,插入和删除容易

(4)哈希表

能否综合两者的特性,做出一种寻址容易,插入和删除也容易的数据结构?——哈希表

哈希表:也叫散列表(Hash Table),根据键(Key)而直接访问在内存存储位置的数据结构,即通过计算一个关于键值的函数,将所需查询的数据映射到表中的一个位置来访问记录,这个映射函数称为散列函数(哈希函数),存放记录的数组称为散列表(哈希表)

  • 哈希表:是一个数据结构,本质是一个数组

  • 键(Key):根据Key访问数据

  • 哈希函数:把元素的关键字通过哈希函数映射到数组中的某个位置——确定存储地址

  • 桶(bucket):存储位置

  • 键值对:相互映射的两个值

    • 键(Key):key --> 哈希函数 --> 存储地址,如学号:101011
    • 值(value):键对应的数据,如学号101011对应姓名:张三
    • Key-value:为键值对,在Java中键值对叫Entry

(5)哈希冲突

两个不同的元素,通过哈希函数的计算得出了相同的实际存储地址,这就是哈希冲突

解决方法:

  • 开放寻址法:发生冲突,继续寻找下一块未被占用的地址
  • 拉链法:数组+链表——可以理解为链表的数组

当通过哈希函数计算得到的地址被占用,将新元素以链表的形式放在老元素的后面,则此时的Entry中还有一个执行后一元素的next指针

2、数据结构

数组 + 链表数组 + 红黑树

  • 数组为transient Node<K,V>[] table;:table数组称为哈希桶

  • transient:transient关键字表示该属性不能被序列化

  • Node:static class Node<K,V> implements Map.Entry<K,V>

    Node对象用来存储Entry即key,value,hash和next

  • 流程:key——》通过hashCode()计算出hash值得到索引i——》找到table[i],存入

  • 可能遇到的问题

    • 数组的扩容——resize()
    • 哈希函数——hashCode()
    • 链表和树的转换——Node类、TreeNode类

二、源码分析

1、继承结构

public class HashMap<K,V> extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable

(1)继承

  • AbstractMap:继承一个抽象的实现了Map接口的类,Map实现部分共用的Map接口,使代码简洁,复用性高

(2)接口

  • Serialzable接口:实现该序列化接口,表明该类可以被序列化

  • Cloneable接口:可以使用Object.Clone方法,该方法可以克隆

  • Map接口:用于存储键值对的集合类

    其父类AbstractMap已经实现了Map接口,这个操作是多余的

2、属性

  • 容量指的是数组容量
//版本号
private static final long serialVersionUID = 362498820763181265L;
//默认数组初始容量——16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
//数组最大容量
static final int MAXIMUM_CAPACITY = 1 << 30;
//默认负载因子——超出负载因子所代表的链表长度会对哈希表进行扩容
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//链表元素长度大于8,将链表变成树
static final int TREEIFY_THRESHOLD = 8;
//小于6从红黑树转为链表
static final int UNTREEIFY_THRESHOLD = 6;
//当table长度超过64时,哈希桶才能树形化
static final int MIN_TREEIFY_CAPACITY = 64;
//存放元素的数组,transient关键字表示该属性不能被序列化
transient Node<K,V>[] table;
//将数据转换成set的另一种存储方式,这个变量主要用于迭代功能
transient Set<Map.Entry<K,V>> entrySet;
//HashMap中键值对的数量,即元素数量
transient int size;
//记录修改次数
transient int modCount;
//阈值(临界值),调整扩容大小
int threshold;
//哈希表的负载因子变量
final float loadFactor;

3、内部类

(1)Node——单向链表

  • 静态内部类:方便调用
  • 单向链表
static class Node<K,V> implements Map.Entry<K,V> {
    //四个属性:哈希值,key,value,和指向下一个Node对象的指针
    final int hash;
    final K key;
    V value;
    Node<K,V> next;

    //构造器
    Node(int hash, K key, V value, Node<K,V> next) {
        this.hash = hash;
        this.key = key;
        this.value = value;
        this.next = next;
    }

    //getXxx()方法
    public final K getKey()        { return key; }
    public final V getValue()      { return value; }
    public final String toString() { return key + "=" + value; }

    //hashCode():int——重写hashCode()返回哈希值
    public final int hashCode() {
        return Objects.hashCode(key) ^ Objects.hashCode(value);
    }

    //设置新值返回旧值
    public final V setValue(V newValue) {
        V oldValue = value;
        value = newValue;
        return oldValue;
    }

    //重写equals,同时复写equals方法和hashCode方法,而不要只写其中一个
    public final boolean equals(Object o) {
        if (o == this)
            return true;
        if (o instanceof Map.Entry) {
            Map.Entry<?,?> e = (Map.Entry<?,?>)o;
            if (Objects.equals(key, e.getKey()) &&
                Objects.equals(value, e.getValue()))
                return true;
        }
        return false;
    }
}
hashCode(Object):int——哈希方法计算哈希值
static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

(2)TreeNode——红黑树

static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
    TreeNode<K,V> parent;  //指向父节点
    TreeNode<K,V> left;//左子节点
    TreeNode<K,V> right;//右子节点
    TreeNode<K,V> prev;//
    boolean red;
    
    //构造器,父类的构造器
    TreeNode(int hash, K key, V val, Node<K,V> next) {
        super(hash, key, val, next);
    }
    
    ...
}

上面这两个内部类再加上之前的Node<K,V>[] table属性,组成了hashMap的结构,哈希桶

4、构造器

(1)无参构造器

public HashMap() {
    this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}

构造一个空的HashMap,默认初始容量为16,默认负载因子为0.75

(2)HashMap(int)——提供初始化容量

public HashMap(int initialCapacity) {
    this(initialCapacity, DEFAULT_LOAD_FACTOR);//传递默认负载因子
}

调用HashMap(int, float),构造一个空的HashMap,具有指定的初始容量和默认负载因子

(3)HashMap(int, float)——提供初始化容量和负载因子

public HashMap(int initialCapacity, float loadFactor) {//传入初始化容量和负载因子
    //判断初始化容量是否小于0
    if (initialCapacity < 0)
        //小于0抛出异常
        throw new IllegalArgumentException("Illegal initial capacity: "                                             +initialCapacity);
    //判断是否大于最大容量
    if (initialCapacity > MAXIMUM_CAPACITY)
        //初始化容量超出最大容量,则给能给的最大容量
        initialCapacity = MAXIMUM_CAPACITY;
    //如果负载因子小于等于0,或负载因子不是一个数值,抛出异常
    if (loadFactor <= 0 || Float.isNaN(loadFactor))
        throw new IllegalArgumentException("Illegal load factor: " +
                                           loadFactor);
    //定义初始容量和负载因子
    this.loadFactor = loadFactor;//负载因子
    this.threshold = tableSizeFor(initialCapacity);
}
tableSizeFor(int):int——返回大于cap值的,且离其最近的2次幂,例如t为29,则返回的值是32
static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

(4)HashCode(Map<? extends K, ? extends V>m)——传入对象

public HashMap(Map<? extends K, ? extends V> m) {
    this.loadFactor = DEFAULT_LOAD_FACTOR;
    putMapEntries(m, false);
}
putMapEntries(Map<? extends K, ? extends V> m, boolean evict):void——传入对象和是否完成初始化,初始化构造map为false
final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) {
    //s存储键值对的数量
    int s = m.size();
    if (s > 0) {//键值对大于0
        if (table == null) { // pre-size,判断桶table是否初始化
            //求出需要的容量,实际长度=容量*0.75,小数相除可能会丢失小数,后面取整可能会使计算的容量小于实际需求的容量,因此需要+1
            float ft = ((float)s / loadFactor) + 1.0F;
            //判断容量是否超出界限
            int t = ((ft < (float)MAXIMUM_CAPACITY) ?
                     (int)ft : MAXIMUM_CAPACITY);
            //对临界值初始化
            if (t > threshold)//threshold为阈值
                threshold = tableSizeFor(t);
        }
        else if (s > threshold)
            resize();
        for (Map.Entry<? extends K, ? extends V> e : m.entrySet()) {
            K key = e.getKey();
            V value = e.getValue();
            putVal(hash(key), key, value, false, evict);
        }
    }
}

5、增——put(Key, Value):V

public V put(K key, V value) {
    /**五个参数,第一个hash值,第四个参数表示如果该key存在值,如果为null的话,则插入新的value,最后一个参数,在hashMap中没有用,可以不用管,使用默认的即可**/
    return putVal(hash(key), key, value, false, true);
}
static final int hash(Object key) {//hash函数
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    //hashCode用于返回对应的哈希值
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
    Node<K,V>[] tab; //指向哈希桶数组的引用top
    Node<K,V> p;//指向其中一个哈希桶引用
    int n, i;//n代表哈希桶数组的长度,i指代哈希桶数组的下标

    //获取长度进行扩容,table一开始并没有加载,而是put之后才开始加载,可能会为null
    //判断哈希桶数组是否为空或哈希桶数组长度为0
    if ((tab = table) == null || (n = tab.length) == 0)
        //扩容后更新数组长度n
        n = (tab = resize()).length;
    //确定存放位置:如果该哈希桶的位置没有值,就放在该处,若有值,则发生哈希冲突
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    //哈希冲突的几种情况
    else {
        Node<K,V> e; //e临时节点
        K k;//存放当前节点的key
        //第一种,如果p节点的hash和key分别等于存入key参数指定的hash与key,或者参数key不为空,且参数key的内容等于p点的key,此时p为首节点
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;//令e指向p
        //第二种:hash值不等于首节点,为红黑树节点
        else if (p instanceof TreeNode)
            //在红黑树中添加,如果该节点已存在且不为null,返回该节点,若添加成功返回null
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        //第三种是链表节点
        else {
            //链表需要遍历到最后节点再插入
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {//如果找到尾部,则key没有重复
                    p.next = newNode(hash, key, value, null);
                    //判断临界值,如果大于红黑树的阈值就转换红黑树
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                //链表中有重复的key,e为当前节点,结束循环
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;//p指向null
            }
        }
        //e==null,则有重复的key,插入新值进行覆盖,返回旧值
        if (e != null) { // existing mapping for key
            V oldValue = e.value;//记录旧值
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;//返回旧值
        }
    }
    //记录修改次数
    ++modCount;
    if (++size > threshold)//判断是否需要扩容
        resize();
    afterNodeInsertion(evict);
    //添加成功
    return null;
}

6、扩容——resize():Node[]

  • 主要思考哈希数组长度、临界值、负载因子的关系,与扩容流程
final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;//将就哈希桶数组用引用保存起来
    int oldCap = (oldTab == null) ? 0 : oldTab.length;//保存旧哈希桶数组的长度
    int oldThr = threshold;//保存old数组的临界值
    int newCap, newThr = 0;//定义新长度和临界值
    if (oldCap > 0) {//如果旧哈希桶数组长度大于0,即非首次初始化
        if (oldCap >= MAXIMUM_CAPACITY) {//数组长度超过最大值
            threshold = Integer.MAX_VALUE;//更新临界值
            return oldTab;//返回old数组
        }
        //非首次初始化的其他情况,长度扩容两倍,扩容后小于最大值大于等于默认值
        //##标记
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            //将新哈希桶的临界值扩容为原来的两倍
            newThr = oldThr << 1; // double threshold
    }
    //哈希桶数组长度为0,但临界值大于0,说明是已经初始化过,首次初始化临界值为默认值0
    else if (oldThr > 0) // initial capacity was placed in threshold
        newCap = oldThr;//令新数组长度等于old数组临界值
    //如果就哈希桶数组容量和数组长度都为0,则首次进行初始化,初始化为默认值
    //由此可见在对哈希表进行扩容时,才会对其进行初始化
    else {// zero initial threshold signifies using defaults
        newCap = DEFAULT_INITIAL_CAPACITY;//新数组长度默认初始化
        //临界值 = 默认负载因子 * 默认初始容量
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    
    //##标记的补充,即初始化时容量小于默认值16时,此时的新数组临界值newThr没有赋值,如果新数组的临界值为0
    if (newThr == 0) {
        //ft为新的临界值
        float ft = (float)newCap * loadFactor;
        //新数组长度小于最大值且新数组临界值小于最大值,令新数组临界值等于ft,否则赋最大值
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    
    threshold = newThr;//更新数组临界值
    @SuppressWarnings({"rawtypes","unchecked"})
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];//初始化,参数为新数组长度
    table = newTab;//使table指向newTab
    if (oldTab != null) {//如果就数组不为空
        for (int j = 0; j < oldCap; ++j) {//遍历oldCap
            Node<K,V> e;//临时变量,存储元素
            if ((e = oldTab[j]) != null) {//数组下标除有非空值
                oldTab[j] = null;//置空
                if (e.next == null)//如果该节点没有下一个元素
                    //将该节点存入newTab中,以哈希值寻址
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode)//如果e是红黑树
                    //将此树存入newTab中
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else { // preserve order,如果e是链表
                    Node<K,V> loHead = null, loTail = null;
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    do {//遍历链表,转移到newTab中
                        next = e.next;
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        }
                        else {
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);
                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    //返回扩容后的hashMap
    return newTab;
}

7、删除——remove(Object key):V

public V remove(Object key) {
    //临时变量
    Node<K,V> e;
    /**调用removeNode(hash(key), key, null, false, true)进行删除,第三个value为null,表示,把key的节点直接都删除了,不需要用到值,如果设为值,则还需要去进行查找操作**/
    return (e = removeNode(hash(key), key, null, false, true)) == null ?
        null : e.value;
}

/**第一参数为哈希值,第二个为key,第三个value,第四个为是为true的话,则表示删除它key对应的value,不删除key,第四个如果为false,则表示删除后,不移动节点**/
final Node<K,V> removeNode(int hash, Object key, Object value,
                           boolean matchValue, boolean movable) {
    //tab 哈希数组,p 数组下标的节点,n 长度,index 当前数组下标
    Node<K,V>[] tab; Node<K,V> p; int n, index;
    //哈希数组不为null,且长度大于0,然后获得到要删除key的节点所在是数组下标位置
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (p = tab[index = (n - 1) & hash]) != null) {
        //nodee 存储要删除的节点,e 临时变量,k 当前节点的key,v 当前节点的value
        Node<K,V> node = null, e; K k; V v;
        //如果数组下标的节点正好是要删除的节点,把值赋给临时变量node
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            node = p;
        //也就是要删除的节点,在链表或者红黑树上,先判断是否为红黑树的节点
        else if ((e = p.next) != null) {
            if (p instanceof TreeNode)
                //遍历红黑树,找到该节点并返回
                node = ((TreeNode<K,V>)p).getTreeNode(hash, key);
            else { //表示为链表节点,一样的遍历找到该节点
                do {
                    if (e.hash == hash &&
                        ((k = e.key) == key ||
                         (key != null && key.equals(k)))) {
                        node = e;
                        break;
                    }
                    /**注意,如果进入了链表中的遍历,那么此处的p不再是数组下标的节点,而是要删除结点的上一个结点**/
                    p = e;
                } while ((e = e.next) != null);
            }
        }
        //找到要删除的节点后,判断!matchValue,我们正常的remove删除,!matchValue都为true
        if (node != null && (!matchValue || (v = node.value) == value ||
                             (value != null && value.equals(v)))) {
            //如果删除的节点是红黑树结构,则去红黑树中删除
            if (node instanceof TreeNode)
                ((TreeNode<K,V>)node).removeTreeNode(this, tab, movable);
            //如果是链表结构,且删除的节点为数组下标节点,也就是头结点,直接让下一个作为头
            else if (node == p)
                tab[index] = node.next;
            else /**为链表结构,删除的节点在链表中,把要删除的下一个结点设为上一个结点的下一个节点**/
                p.next = node.next;
            //修改计数器
            ++modCount;
            //长度减一
            --size;
            /**此方法在hashMap中是为了让子类去实现,主要是对删除结点后的链表关系进行处理**/
            afterNodeRemoval(node);
            //返回删除的节点
            return node;
        }
    }
    //返回null则表示没有该节点,删除失败
    return null;
}

8、获取get(Object):V

public V get(Object key) {
    Node<K,V> e;
    //也是调用getNode方法来完成的
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}

final Node<K,V> getNode(int hash, Object key) {
    //first 头结点,e 临时变量,n 长度,k key
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    //头结点也就是数组下标的节点
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {
        //如果是头结点,则直接返回头结点
        if (first.hash == hash && 
            ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
        //不是头结点
        if ((e = first.next) != null) {
            //判断是否是红黑树结构
            if (first instanceof TreeNode)
                //去红黑树中找,然后返回
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            do { //链表节点,一样遍历链表,找到该节点并返回
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    //找不到,表示不存在该节点
    return null;
}

9、修改

元素的修改也是put方法,因为key是唯一的,所以修改元素,是把新值覆盖旧值。

三、总结

(1)HashMap底层维护了Node类型的数组table,默认为null

(2)当创建对象时,负载因子初始化为0.75

(3)在哈希表进行初次扩容resize时,table才进行初始化,table进行初次put时才开始加载

(4)第一次添加put,需要扩容table容量为16,临界值为12

(5)以后再扩容,table容量和临界值扩为原来的两倍

(6)在Java8中,如果一条链表的元素超过TREEIFY_THRESHOLD(8),且table数组的长度大于等于MIN_TREEIFY_CAPACITY(64),会进行树化

推荐阅读