欢迎来到皮皮网网首页

【如何看php源码】【域名源码讲解视频】【discuz论坛素材源码】哈希链表源码_哈希 链表

来源:jumpserver 3.0源码 时间:2024-11-24 16:53:37

1.HashMap实现原理
2.HashMap实现原理一步一步分析(1-put方法源码整体过程)
3.LFU原理及代码实现
4.Redis7.0源码阅读:哈希表扩容、哈希哈希缩容以及rehash
5.HashMap和Hashtable有什么区别?链表链表
6.hash / hashtable(linux kernel 哈希表)

哈希链表源码_哈希 链表

HashMap实现原理

        HashMap在实际开发中用到的频率非常高,面试中也是热点。所以决定写一篇文章进行分析,希望对想看源码的人起到一些帮助,看之前需要对链表比较熟悉。

        以下都是我自己的理解,欢迎讨论,写的不好轻喷。

        HashMap中的数据结构为散列表,又名哈希表。在这里我会对散列表进行一个简单的介绍,在此之前我们需要先回顾一下 数组、链表的优缺点。

        数组和链表的优缺点取决于他们各自在内存中存储的模式,也就是直接使用顺序存储或链式存储导致的。无论是数组还是链表,都有明显的缺点。而在实际业务中,我们想要的往往是寻址、删除、插入性能都很好的数据结构,散列表就是这样一种结构,它巧妙的结合了数组与链表的优点,并将其缺点弱化(并不是完全消除)

        散列表的做法是将key映射到数组的某个下标,存取的时候通过key获取到下标(index)然后通过下标直接存取。速度极快,而将key映射到下标需要使用散列函数,又名哈希函数。说到哈希函数可能有人已经想到了,如何将key映射到数组的下标。

        图中计算下标使用到了以下两个函数:

        值得注意的是,下标并不是通过hash函数直接得到的,计算下标还要对hash值做index()处理。

        Ps:在散列表中,数组的格子叫做桶,下标叫做桶号,桶可以包含一个key-value对,为了方便理解,后文不会使用这两个名词。

        以下是哈希碰撞相关的说明:

        以下是下标冲突相关的说明:

        很多人认为哈希值的碰撞和下标冲突是同一个东西,其实不是的,它们的正确关系是这样的,hashCode发生碰撞,则下标一定冲突;而下标冲突,hashCode并不一定碰撞

        上文提到,在jdk1.8以前HashMap的实现是散列表 = 数组 + 链表,但是到目前为止我们还没有看到链表起到的作用。事实上,HashMap引入链表的用意就是解决下标冲突。

        下图是引入链表后的散列表:

        如上图所示,左边的竖条,是一个大小为的数组,其中存储的是链表的头结点,我们知道,拥有链表的头结点即可访问整个链表,所以认为这个数组中的每个下标都存储着一个链表。其具体做法是,如果发现下标冲突,则后插入的节点以链表的形式追加到前一个节点的后面。

        这种使用链表解决冲突的方法叫做:拉链法(又叫链地址法)。HashMap使用的就是拉链法,拉链法是冲突发生以后的解决方案。

        Q:有了拉链法,就不用担心发生冲突吗?

        A:并不是!由于冲突的节点会不停的在链表上追加,大量的冲突会导致单个链表过长,使查询性能降低。所以一个好的散列表的实现应该从源头上减少冲突发生的可能性,冲突发生的概率和哈希函数返回值的均匀程度有直接关系,得到的哈希值越均匀,冲突发生的可能性越小。为了使哈希值更均匀,HashMap内部单独实现了hash()方法。

        以上是散列表的存储结构,但是在被运用到HashMap中时还有其他需要注意的地方,这里会详细说明。

        现在我们清楚了散列表的存储结构,细心的人应该已经发现了一个问题:Java中数组的长度是固定的,无论哈希函数是否均匀,随着插入到散列表中数据的增多,在数组长度不变的情况下,链表的长度会不断增加。这会导致链表查询性能不佳的缺点出现在散列表上,从而使散列表失去原本的意义。为了解决这个问题,HashMap引入了扩容与负载因子。

        以下是和扩容相关的一些概念和解释:

        Ps:扩容要重新计算下标,扩容要重新计算下标,扩容要重新计算下标,因为下标的计算和数组长度有关,长度改变,下标也应当重新计算。

        在1.8及其以上的jdk版本中,HashMap又引入了红黑树。

        红黑树的引入被用于替换链表,上文说到,如果冲突过多,会导致链表过长,降低查询性能,均匀的hash函数能有效的缓解冲突过多,但是并不能完全避免。所以HashMap加入了另一种解决方案,在往链表后追加节点时,如果发现链表长度达到8,就会将链表转为红黑树,以此提升查询的性能。

HashMap实现原理一步一步分析(1-put方法源码整体过程)

       本文分享了HashMap内部的实现原理,重点解析了哈希(hash)、源码散列表(hash table)、哈希哈希哈希码(hashcode)以及hashCode()方法等基本概念。链表链表

       哈希(hash)是源码如何看php源码将任意长度的输入通过散列算法转换为固定长度输出的过程,建立一一对应关系。哈希哈希常见算法包括MD5加密和ASCII码表。链表链表

       散列表(hash table)是源码一种数据结构,通过关键码值映射到表中特定位置进行快速访问。哈希哈希

       哈希码(hashcode)是链表链表散列表中对象的存储位置标识,用于查找效率。源码

       Object类中的哈希哈希hashCode()方法用于获取对象的哈希码值,以在散列存储结构中确定对象存储地址。链表链表

       在存储字母时,源码使用哈希码值对数组大小取模以适应存储范围,防止哈希碰撞。

       HashMap在JDK1.7中使用数组+链表结构,而JDK1.8引入了红黑树以优化性能。

       HashMap内部数据结构包含数组和Entry对象,数组用于存储Entry对象,Entry对象用于存储键值对。

       在put方法中,首先判断数组是否为空并初始化,然后计算键的哈希码值对数组长度取模,用于定位存储位置。域名源码讲解视频如果发生哈希碰撞,使用链表解决。

       本文详细介绍了HashMap的存储机制,包括数组+链表的实现方式,以及如何处理哈希碰撞。后续文章将继续深入探讨HashMap的其他特性,如数组长度的优化、多线程环境下的性能优化和红黑树的引入。

LFU原理及代码实现

       LFU的原理基于一个概念,即访问频率作为选择淘汰对象的依据。与LRU(Least Recently Used)不同,LFU更侧重于访问频次,它维护一个元素的访问频率,并基于频率进行淘汰。

       LFU由两个主要组件构成:一个列表和一个哈希表。列表内包含两层结构:第一层用于区分元素的访问频率,第二层则在同频率下实现LRU(Least Recently Used)策略,以确保最新访问的元素位于链表的头部。

       哈希表是一个无序映射,其键为LFU元素的key,值为一个结构体。该结构体包含两个部分:第一部分表示元素在列表中第一层的位置,第二部分则对应第二层在LRU链表中的位置。如此设计,可在常数时间内访问和更新元素信息。discuz论坛素材源码

       核心策略在于,每当元素被访问,其频率将递增,并相应地将元素移动至更高频率的LRU链表头部。如果不存在对应频率的链表,则需新建。这种动态更新机制确保了频率更高、访问更频繁的元素得到优先处理。

       整体代码实现如下,旨在清晰展现LFU原理和逻辑:

Redis7.0源码阅读:哈希表扩容、缩容以及rehash

       当哈希值相同发生冲突时,Redis 使用链表法解决,将冲突的键值对通过链表连接,但随着数据量增加,冲突加剧,查找效率降低。负载因子衡量冲突程度,负载因子越大,冲突越严重。为优化性能,Redis 需适时扩容,将新增键值对放入新哈希桶,减少冲突。

       扩容发生在 setCommand 部分,其中 dictKeyIndex 获取键值对索引,巢湖投票网站源码判断是否需要扩容。_dictExpandIfNeeded 函数执行扩容逻辑,条件包括:不在 rehash 过程中,哈希表初始大小为0时需扩容,或负载因子大于1且允许扩容或负载因子超过阈值。

       扩容大小依据当前键值对数量计算,如哈希表长度为4,实际有9个键值对,扩容至(最小的2的n次幂大于9)。子进程存在时,dict_can_resize 为0,反之为1。fork 子进程用于写时复制,确保持久化操作的稳定性。

       哈希表缩容由 tryResizeHashTables 判断负载因子是否小于0.1,条件满足则重新调整大小。此操作在数据库定时检查,且无子进程时执行。

       rehash 是为解决链式哈希效率问题,通过增加哈希桶数量分散存储,减少冲突。dictRehash 函数完成这一任务,移动键值对至新哈希表,使用位运算优化哈希计算。渐进式 rehash 通过分步操作,核心启动源码大全减少响应时间,适应不同负载情况。定时任务检测服务器空闲时,进行大步挪动哈希桶。

       在 rehash 过程中,数据查询首先在原始哈希表进行,若未找到,则在新哈希表中查找。rehash 完成后,哈希表结构调整,原始表指向新表,新表内容返回原始表,实现 rehash 结果的整合。

       综上所述,Redis 通过哈希表的扩容、缩容以及 rehash 动态调整哈希桶大小,优化查找效率,确保数据存储与检索的高效性。这不仅提高了 Redis 的性能,也为复杂数据存储与管理提供了有力支持。

HashMap和Hashtable有什么区别?

       HashMap和Hashtable都是用于实现基于键值对的映射数据结构的类。它们主要区别在于线程安全性、null值的处理和迭代器的顺序。

       Hashtable是线程安全的,其方法都是同步的,如果多个线程同时访问一个实例,数据可能不一致。相反,HashMap不是线程安全的。

       在null值处理上,Hashtable不允许键或值为null,否则会抛出异常。而HashMap允许键或值为null,使用特殊null键和null值。

       HashMap迭代器不保证遍历元素顺序,而Hashtable迭代器保证按插入顺序遍历。

       下面是HashMap和Hashtable的代码示例:

       输出结果如下:

       注意,由于Hashtable不允许null键或值,以下代码会抛出异常。而HashMap允许键或值为null。

       HashMap和Hashtable实现原理不同,HashMap使用哈希表,Hashtable使用哈希表加链表实现。HashMap通常比Hashtable更快,但不是线程安全的。

       在使用HashMap时,如果需要保证元素顺序,应使用LinkedHashMap。避免使用Enumeration迭代器,推荐使用Iterator。

       使用HashMap时,应根据实际情况选择合适的初始容量和负载因子,避免频繁扩容和重新散列,影响性能。

hash / hashtable(linux kernel 哈希表)

       哈希表,或称为散列表,是一种高效的数据结构,因其插入和查找速度的优势而备受关注。然而,其空间利用率并不固定,需要权衡。让我们通过实例来深入理解它的作用和工作原理。

       想象一个场景:我们需要高效地存储和访问大量数据。首先,常规的数组方法,如普通数组和有序数组,虽然插入简单,但查找效率低,尤其是在数据量较大时。例如,查找可能需要对数千个元素进行比较。有序数组通过牺牲增删效率来提升查询,但数组空间固定且可能浪费大量资源。

       链表提供了更灵活的增删操作,但随机访问困难,适合数据频繁变动的情况。红黑树在查询和增删效率上表现优秀,但此处暂不讨论。庞大的数组虽然理论上能快速查找,但实际操作中难以实现,因为它需要预先预估并准备极大数据空间。

       这时,哈希表登场了。它利用哈希函数将数据映射到一个较小的数组中,即使存在冲突(不同数据映射到同一地址),通过链表解决,仍然能显著提升查找效率。例如,即使身份证号的哈希结果可能有重复,但实际冲突相对较少,通过链表链接,平均查找次数大大减少。

       使用哈希表包括简单的步骤:包含头文件,声明和初始化哈希表,添加节点,以及通过哈希键查找节点。在实际源码中,如Linux kernel的hash.h和hashtable.h文件,哈希表的初始化和操作都是基于这些步骤进行的。

       总结来说,哈希表在大数据场景中通过计算直接定位数据,显著提高效率,尤其是在数据量增大时。如果你对Linux kernel的哈希表实现感兴趣,可以关注我的专栏RTFSC,深入探讨更多源码细节。

一目了然,Hash算法及HashMap底层实现原理

       Hash算法和HashMap底层实现原理概述:

       哈希表以其高效查询和插入操作而备受青睐。其核心是将(key, value)对通过哈希函数映射到数组的特定位置,查询时间复杂度达到理想状态的O(1)。哈希表结构结合了数组、链表和红黑树,数组用于基本存储,链表或平衡二叉树用于处理碰撞。数组的查询和插入复杂度为O(1),而链表或平衡二叉树的相应操作为O(n)或O(lgn)。

       具体实现中,首先通过哈希算法,如默认使用key的hashCode,计算得到一个整数hash值。然后,通过取余操作确定在数组中的存储位置。当发生碰撞,即多个key映射到同一位置,HashMap采用开放寻址法或链式地址解决,如Java默认使用拉链法。开放寻址法通过在数组中寻找空余位置,链式地址则使用链表结构存储冲突的结点,查询时遍历链表。

       HashMap以数组为基础,每个元素是链表的头节点,Put方法根据Key的哈希值定位并插入链表,Get方法则通过哈希映射和链表遍历找到对应的Value。HashMap初始长度为的2的幂,通过位运算确保哈希分布均匀,避免过多的碰撞。

       理解Hash算法的关键在于生成的哈希值的均匀分布,以及如何通过位运算来快速定位数组位置。通过深入研究,您将能更好地掌握这些复杂的底层实现机制。