算法必知 --- LFU缓存淘汰算法

写在前

LRU缓存机制(Least Recently Used)(看时间)

  • 在缓存满的时候,删除缓存里最久未使用的数据,然后再放入新元素;
  • 数据的访问时间很重要,访问时间距离现在越近,就越不容易被删除;
  • 就是喜新厌旧,淘汰在缓存里呆的时间最久的元素。在删除元素的时候,只看「时间」这一个维度。

LFU缓存机制(Least Frequently Used)(看访问次数)

  • 在缓存满的时候,删除缓存里使用次数最少的元素,然后在缓存中放入新元素;
  • 数据的访问次数很重要,访问次数越多,就越不容易被删除,即淘汰访问次数最少的
  • 核心思想:先考虑访问次数,在访问次数相同的情况下,再考虑缓存的时间。

算法描述

请你为 最不经常使用(LFU)缓存算法设计并实现数据结构。

实现 LFUCache 类:

  • LFUCache(int capacity) - 用数据结构的容量 capacity 初始化对象
  • int get(int key) - 如果键存在于缓存中,则获取键的值,否则返回 -1。
  • void put(int key, int value) - 如果键已存在,则变更其值;如果键不存在,请插入键值对。当缓存达到其容量时,则应该在插入新项之前,使最不经常使用的项无效。在此问题中,当存在平局(即两个或更多个键具有相同使用频率)时,应该去除 最近最久未使用 的键。

注意「项的使用次数」就是自插入该项以来对其调用 get 和 put 函数的次数之和。使用次数会在对应项被移除后置为 0 。

为了确定最不常使用的键,可以为缓存中的每个键维护一个 使用计数器 。使用计数最小的键是最久未使用的键。

当一个键首次插入到缓存中时,它的使用计数器被设置为 1 (由于 put 操作)。对缓存中的键执行 get 或 put 操作,使用计数器的值将会递增。

注意哦,get 和 put 方法必须都是 O(1) 的时间复杂度!

示例

输入:
["LFUCache", "put", "put", "get", "put", "get", "get", "put", "get", "get", "get"]
[[2], [1, 1], [2, 2], [1], [3, 3], [2], [3], [4, 4], [1], [3], [4]]
输出:
[null, null, null, 1, null, -1, 3, null, -1, 3, 4]

解释:
// cnt(x) = 键 x 的使用计数
// cache=[] 将显示最后一次使用的顺序(最左边的元素是最近的)
LFUCache lFUCache = new LFUCache(2);
lFUCache.put(1, 1);   // cache=[1,_], cnt(1)=1
lFUCache.put(2, 2);   // cache=[2,1], cnt(2)=1, cnt(1)=1
lFUCache.get(1);      // 返回 1
                      // cache=[1,2], cnt(2)=1, cnt(1)=2
lFUCache.put(3, 3);   // 去除键 2 ,因为 cnt(2)=1 ,使用计数最小
                      // cache=[3,1], cnt(3)=1, cnt(1)=2
lFUCache.get(2);      // 返回 -1(未找到)
lFUCache.get(3);      // 返回 3
                      // cache=[3,1], cnt(3)=2, cnt(1)=2
lFUCache.put(4, 4);   // 去除键 1 ,1 和 3 的 cnt 相同,但 1 最久未使用
                      // cache=[4,3], cnt(4)=1, cnt(3)=2
lFUCache.get(1);      // 返回 -1(未找到)
lFUCache.get(3);      // 返回 3
                      // cache=[3,4], cnt(4)=1, cnt(3)=3
lFUCache.get(4);      // 返回 4
                      // cache=[3,4], cnt(4)=2, cnt(3)=3

算法设计

首先需要维护一个链表,链表的结构如下。ps:注意是双端链表,图示有误,但意思明确,具体见代码。

image

注意:

  • 首先我们在LRU中定义两个永久节点,head作为头节点、tail作为尾节点,就作为了我们链表的头节点和尾节点。我们插入的每一个缓存都是链表中的一个Node节点。
  • 因为链表频数大的靠近head,频数小的靠近tail。这种情况实际上是将我们的链表按照频数划分成了不同的区域如下图
image

算法需要实现的三个操作:

  • 新增节点:如果新增节点的频数为1,所以我们需要找到当前链表频数为1的部分的第一个节点(头结点),在他前面插入新元素(如果不存在频数为1那么就是在tail节点前插入)

  • 修改节点(删除+移动):首先需要将节点的值进行修改这个很简单,然后就是移动节点在链表中的位置了,假设节点的频数为 a ,那么节点首先需要从频数为a的区域中删除,这就分为了以下几种情况:

    • 频数为a的区域只有一个节点,那么a节点频数修改后,频数为a的区域将会消失(注意这个说法,后面会讲实现),然后将当前暂时从链表中移除
    • 频数为a的区域的头节点是当前节点,那么将频数为a的节点的头节点改为当前节点的后一个元素即可,然后将当前节点暂时从链表中移除
    • 频数为a的区域的头节点不是当前节点,那么直接将当前节点暂时从频数为a的区域删除即可。

    从频数为a的区域删除后,下面一步就是插入到频数为a+1的区域的头部

    • 频数为a+1的区域不存在,那么将当前节点插入到上一步更新后的频数为a的头节点的前面即可
    • 频数为a+1的区域存在,直接插入到频数为a+1的区域的头部即可
  • 删除节点:因为tail节点的前一个就是我们使用次数最少且最不常使用的缓存,我们直接删除tail节点的前一个节点即可,单数删除的时候需要注意。假设需要删除的节点的频数为a,这个操作相当于将指定节点从频数为a的区域删除,这和我们修改阶段的第一步是类似的。

总结:上述算法实现的重点,如何获得频数为a的区域的头节点(使用一个Map来维护链表中频数为a的区域的头节点)

代码实现

  • 首先定义双端链表类(包括数据和记录前驱/后继节点的指针
class DLinkedNode {
    int key;
    int value;
    // 记录当前key被调用的次数
    int count;
    DLinkedNode pre;
    DLinkedNode next;

    public DLinkedNode() {};
    public DLinkedNode(int key, int value) {
        this.key = key;
        this.value = value;
        this.count = count;
    }
}

  • 双向链表需要提供一些接口api,便于我们操作,主要就是链表的一些操作,画图理解!
private void renewNode(DLinkedNode node) {
    int oldCnt = node.count;
    int newCnt = oldCnt + 1;
    DLinkedNode next = null;

    if (cntMap.get(oldCnt) == node) {
        //当前节点是oldCnt频数的头结点(两种情况:还有其他节点/只有一个节点)
        // 更新oldCnt频数头结点的映射
        if (node.next.count == node.count) {
            cntMap.put(oldCnt, node.next);
        } else {
            cntMap.remove(oldCnt);
        }
        // 更新newCnt频数头结点的映射(不存在直接加入,存在找到对应频数的头结点)
        if (cntMap.get(newCnt) == null) {
            cntMap.put(newCnt, node);
            node.count++;
            return;
        } else {
            removeFromList(node);
            next = cntMap.get(newCnt);
        }
    } else {
        // 当前节点不是某个频数的头结点(我们不需要维护频数头结点的映射,直接找到对应频数的头结点即可)
        removeFromList(node);
        if (cntMap.get(newCnt) == null) {
            next = cntMap.get(oldCnt);
        } else {
            next = cntMap.get(newCnt);
        }
    }
    node.count++;
    cntMap.put(newCnt, node);
    // 插入节点(连接节点),其中next是频数的头结点
    insertToList(node, next);
}

private void removeFromList(DLinkedNode node) {
    node.pre.next = node.next;
    node.next.pre = node.pre;
}

private void insertToList(DLinkedNode node, DLinkedNode next) {
    next.pre.next = node;
    node.pre = next.pre;
    node.next = next;
    next.pre = node;
}

// 缓存容量满了,删除一个最少且最久没使用的节点 
private void deleteCache() {
    DLinkedNode delNode = tail.pre;
    DLinkedNode pre = delNode.pre;
    if (cntMap.get(delNode.count) == delNode) {
        // 删除节点是某个频数的头结点
        cntMap.remove(delNode.count);
    }
    // 实际删除的节点
    pre.next = tail;
    tail.pre = pre;
    cache.remove(delNode.key);
    --size;
}

  • 确定LRU缓存类的成员变量(链表长度、缓存容量和map映射等)和构造函数。注意:定义虚拟头尾结点便于在头部插入元素或者寻找尾部元素!并在构造函数初始化。
// cnt - node : 增加了频数与头节点的映射
private Map<Integer, DLinkedNode> cntMap = new HashMap<>();
// key - node
private Map<Integer, DLinkedNode> cache = new HashMap<>();
// 缓存中目前存储的数据量
private int size;
private int capacity;
private DLinkedNode head, tail;

public LFUCache(int capacity) {
    this.size = 0;
    this.capacity = capacity;

    head = new DLinkedNode();
    tail = new DLinkedNode();
    head.next = tail;
    tail.pre = head;
}

  • 核心代码:get和put方法,都是先根据key获取这个映射,根据映射节点的情况(有无)进行操作。注意:
    • get和put都在使用,所以数据要提前!
    • put操作如果改变了双端链表长度(不是仅改变值),需要先判断是否达到最大容量!
public int get(int key) {
    DLinkedNode node = cache.get(key);
    if (capacity == 0 || node == null) {
        return -1;
    }
    // node节点的调用次数+1,应该更新他的位置
    renewNode(node);
    return node.value;
}

public void put(int key, int value) {
    if (capacity == 0) {
        return;
    }
    DLinkedNode node = cache.get(key);
    if (node != null) {
        node.value = value;
        // 将这个节点的频数cnt+1,更新位置
        renewNode(node);
    } else {
        if (cache.size() == capacity) {
            deleteCache();
            --size;
        }
        DLinkedNode newNode = new DLinkedNode(key, value, 1);
        DLinkedNode next = cntMap.get(1);
        if (next == null) {
            next = tail;
        }
        // 将新建的节点插入到链表,并更新映射
        insertToList(newNode, next);
        cntMap.put(1, newNode);
        cache.put(key, newNode);
        ++size;
    }
}

完整代码如下:

class LFUCache {

    class DLinkedNode {
        int key;
        int value;
        // 记录当前key被调用的次数(即node节点的频数)
        int count;
        DLinkedNode pre;
        DLinkedNode next;

        public DLinkedNode() {};

        public DLinkedNode(int key, int value, int count) {
            this.key = key;
            this.value = value;
            this.count = count;
        }
    }

    // cnt - node : 增加了频数与头节点的映射
    private Map<Integer, DLinkedNode> cntMap = new HashMap<>();
    // key - node
    private Map<Integer, DLinkedNode> cache = new HashMap<>();
    // 缓存中目前存储的数据量
    private int size;
    private int capacity;
    private DLinkedNode head, tail;

    public LFUCache(int capacity) {
        this.size = 0;
        this.capacity = capacity;

        head = new DLinkedNode();
        tail = new DLinkedNode();
        head.next = tail;
        tail.pre = head;
    }

    public int get(int key) {
        DLinkedNode node = cache.get(key);
        if (capacity == 0 || node == null) {
            return -1;
        }
        // node节点的调用次数+1,应该更新他的位置
        renewNode(node);
        return node.value;
    }

    public void put(int key, int value) {
        if (capacity == 0) {
            return;
        }
        DLinkedNode node = cache.get(key);
        if (node != null) {
            node.value = value;
            // 将这个节点的频数cnt+1,更新位置
            renewNode(node);
        } else {
            if (cache.size() == capacity) {
                deleteCache();
                --size;
            }
            DLinkedNode newNode = new DLinkedNode(key, value, 1);
            DLinkedNode next = cntMap.get(1);
            if (next == null) {
                next = tail;
            }
            // 将新建的节点插入到链表,并更新映射
            insertToList(newNode, next);
            cntMap.put(1, newNode);
            cache.put(key, newNode);
            ++size;
        }
    }

    private void renewNode(DLinkedNode node) {
        int oldCnt = node.count;
        int newCnt = oldCnt + 1;
        DLinkedNode next = null;

        if (cntMap.get(oldCnt) == node) {
            //当前节点是oldCnt频数的头结点(两种情况:还有其他节点/只有一个节点)
            // 更新oldCnt频数头结点的映射
            if (node.next.count == node.count) {
                cntMap.put(oldCnt, node.next);
            } else {
                cntMap.remove(oldCnt);
            }
            // 更新newCnt频数头结点的映射(不存在直接加入,存在找到对应频数的头结点)
            if (cntMap.get(newCnt) == null) {
                cntMap.put(newCnt, node);
                node.count++;
                return;
            } else {
                removeFromList(node);
                next = cntMap.get(newCnt);
            }
        } else {
            // 当前节点不是某个频数的头结点(我们不需要维护频数头结点的映射,直接找到对应频数的头结点即可)
            removeFromList(node);
            if (cntMap.get(newCnt) == null) {
                next = cntMap.get(oldCnt);
            } else {
                next = cntMap.get(newCnt);
            }
        }
        node.count++;
        cntMap.put(newCnt, node);
        // 插入节点(连接节点),其中next是频数的头结点
        insertToList(node, next);
    }

    private void removeFromList(DLinkedNode node) {
        node.pre.next = node.next;
        node.next.pre = node.pre;
    }

    private void insertToList(DLinkedNode node, DLinkedNode next) {
        next.pre.next = node;
        node.pre = next.pre;
        node.next = next;
        next.pre = node;
    }

    // 缓存容量满了,删除一个最少且最久没使用的节点 
    private void deleteCache() {
        DLinkedNode delNode = tail.pre;
        DLinkedNode pre = delNode.pre;
        if (cntMap.get(delNode.count) == delNode) {
            // 删除节点是某个频数的头结点
            cntMap.remove(delNode.count);
        }
        // 实际删除的节点
        pre.next = tail;
        tail.pre = pre;
        cache.remove(delNode.key);
        --size;
    }
}

总结与补充

  • 上述代码在LRU基础上进行的。主要区别是:
    • 节点类中引入了count变量,记录key出现的频数
    • LFU成员变量中增加了cntMap:key的频数与这个频数区间头结点的映射
  • 注意:同样的,我们要注意维护cntMap映射和节点的频数

作者:_code_x
链接://www.greatytc.com/p/56c732eeb5c7
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容