目录

Redis Zskiplist

目录

跳跃表(skiplist)是一种随机化的数据, 由 William Pugh 在论文《Skip lists: a probabilistic alternative to balanced trees》中提出, 跳跃表以有序的方式在层次化的链表中保存元素, 效率和平衡树媲美 —— 查找、删除、添加等操作都可以在对数期望时间下完成, 并且比起平衡树来说, 跳跃表的实现要简单直观得多。

Redis 的跳跃表由 redis.h/zskiplistNode 和 redis.h/zskiplist 两个结构定义, 其中 zskiplistNode 结构用于表示跳跃表节点, 而 zskiplist 结构则用于保存跳跃表节点的相关信息, 比如节点的数量, 以及指向表头节点和表尾节点的指针, 等等。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
// 跳表结点
typedef struct zskiplistNode {
    // 结点存储的具体值
    sds ele;
    // 分值
    double score;
    // 后退指针,使得跳表第一层组织为双向链表
    struct zskiplistNode *backward;
    // 层
    struct zskiplistLevel {
        // 前进指针
        struct zskiplistNode *forward;
        // 跨度
        unsigned long span;
    } level[];
} zskiplistNode;

// 跳表
typedef struct zskiplist {
    // 头结点、尾结点
    struct zskiplistNode *header, *tail;
    // 记录元素存储个数
    unsigned long length;
    // 记录当前最高层是多少
    int level;
} zskiplist;

/images/redis/zskiplist.png

位于图片最左边的是 zskiplist 结构, 该结构包含以下属性:

  • header :指向跳跃表的表头节点。
  • tail :指向跳跃表的表尾节点。
  • level :记录目前跳跃表内,层数最大的那个节点的层数(表头节点的层数不计算在内)。
  • length :记录跳跃表的长度,也即是,跳跃表目前包含节点的数量(表头节点不计算在内)。

位于 zskiplist 结构右方的是四个 zskiplistNode 结构, 该结构包含以下属性:

  • 层(level):节点中用 L1 、 L2 、 L3 等字样标记节点的各个层, L1 代表第一层, L2 代表第二层,以此类推。每个层都带有两个属性:前进指针和跨度。前进指针用于访问位于表尾方向的其他节点,而跨度则记录了前进指针所指向节点和当前节点的距离。在上面的图片中,连线上带有数字的箭头就代表前进指针,而那个数字就是跨度。当程序从表头向表尾进行遍历时,访问会沿着层的前进指针进行。
  • 后退(backward)指针:节点中用 BW 字样标记节点的后退指针,它指向位于当前节点的前一个节点。后退指针在程序从表尾向表头遍历时使用。
  • 分值(score):各个节点中的 1.0 、 2.0 和 3.0 是节点所保存的分值。在跳跃表中,节点按各自所保存的分值从小到大排列。
  • 成员对象(obj):各个节点中的 o1 、 o2 和 o3 是节点所保存的成员对象。

注意表头节点和其他节点的构造是一样的: 表头节点也有后退指针、分值和成员对象, 不过表头节点的这些属性都不会被用到, 所以图中省略了这些部分, 只显示了表头节点的各个层。

为什么使用跳表?

  • 相比常见的平衡树,比如平衡二叉树(AVL),由于AVL树是一颗过于平衡的二叉树,在更改操作中对于维护平衡所需的代价较大;而较为平衡的红黑树的实现细节也是较为复杂 :

    • 平衡树的插入和删除操作可能引发子树的调整,逻辑复杂,而跳表的插入和删除只需要修改相邻节点的指针,操作简单又快速.
    • 范围查询 : AVL树、红黑树、跳表存储的元素都是有序的,所以支持范围查询,但是AVL树、红黑树的范围查询需要以中序遍历的顺序继续寻找其它不超过大值的节点,而跳表上进行范围查找就非常简单.
  • 跳表和平衡树的时间复杂度都为O(log n),大体相当,但跳表的原理相当简单.

  • 虽然跳表是以空间换时间的数据结构,红黑树不需要额外的空间,但是跳表并不是特别耗内存,只需要调整下节点到更高level的概率,就可以做到比B树更少的内存消耗;

  • 有序集合可能面对大量的范围查询操作,跳表作为单链表遍历的实现性能不亚于其他的平衡树;

  • 实现和调试起来比较简单.

Java 的HashMap为什么使用的是红黑树,而不是跳表 :

  • HashMap 的设计并不是有序的,跳表需要元素之间存在排序关系,否则就无法跳跃查找;
  • TreeMap相对应的并发容器 ConcurrentSkipListMap 就是使用的跳表;

跳表的平衡性关键是由每个节点插入的时候,它的索引层数是由随机函数计算出来的,而且随机的计算不依赖于其它节点,每次插入过程都是完全独立的.这样,就和普通链表的插入一样,查找到插入点位置后,只需要一次操作就可以完成结点插入,时间复杂度为 O(logn)