LFU 缓存

标签: 设计 哈希表 链表 双向链表

难度: Hard

请你为 最不经常使用(LFU)缓存算法设计并实现数据结构。

实现 LFUCache 类:

  • LFUCache(int capacity) - 用数据结构的容量 capacity 初始化对象
  • int get(int key) - 如果键 key 存在于缓存中,则获取键的值,否则返回 -1
  • void put(int key, int value) - 如果键 key 已存在,则变更其值;如果键不存在,请插入键值对。当缓存达到其容量 capacity 时,则应该在插入新项之前,移除最不经常使用的项。在此问题中,当存在平局(即两个或更多个键具有相同使用频率)时,应该去除 最久未使用 的键。

为了确定最不常使用的键,可以为缓存中的每个键维护一个 使用计数器 。使用计数最小的键是最久未使用的键。

当一个键首次插入到缓存中时,它的使用计数器被设置为 1 (由于 put 操作)。对缓存中的键执行 getput 操作,使用计数器的值将会递增。

函数 getput 必须以 O(1) 的平均时间复杂度运行。

示例:

输入:
["LFUCache", "put", "put", "get", "put", "get", "get", "put", "get", "get", "get"]
[[2], [1, 1], [2, 2], [1], [3, 3], [2], [3], [4, 4], [1], [3], [4]]
输出:
[null, null, null, 1, null, -1, 3, null, -1, 3, 4]

解释:
// cnt(x) = 键 x 的使用计数
// cache=[] 将显示最后一次使用的顺序(最左边的元素是最近的)
LFUCache lfu = new LFUCache(2);
lfu.put(1, 1);   // cache=[1,_], cnt(1)=1
lfu.put(2, 2);   // cache=[2,1], cnt(2)=1, cnt(1)=1
lfu.get(1);      // 返回 1
                 // cache=[1,2], cnt(2)=1, cnt(1)=2
lfu.put(3, 3);   // 去除键 2 ,因为 cnt(2)=1 ,使用计数最小
                 // cache=[3,1], cnt(3)=1, cnt(1)=2
lfu.get(2);      // 返回 -1(未找到)
lfu.get(3);      // 返回 3
                 // cache=[3,1], cnt(3)=2, cnt(1)=2
lfu.put(4, 4);   // 去除键 1 ,1 和 3 的 cnt 相同,但 1 最久未使用
                 // cache=[4,3], cnt(4)=1, cnt(3)=2
lfu.get(1);      // 返回 -1(未找到)
lfu.get(3);      // 返回 3
                 // cache=[3,4], cnt(4)=1, cnt(3)=3
lfu.get(4);      // 返回 4
                 // cache=[3,4], cnt(4)=2, cnt(3)=3

提示:

  • 1 <= capacity <= 104
  • 0 <= key <= 105
  • 0 <= value <= 109
  • 最多调用 2 * 105getput 方法

Submission

运行时间: 395 ms

内存: 75.9 MB

class LFUCache:

    def __init__(self, capacity: int):
        from collections import OrderedDict, defaultdict
        self.freq = defaultdict(OrderedDict)
        self.key_to_freq = {}
        self.capacity = capacity
        self.min_freq = 0

    def get(self, key: int) -> int:
        if key not in self.key_to_freq:
            return -1
        key_freq = self.key_to_freq[key]
        res = self.freq[key_freq].pop(key)
        if not self.freq[key_freq] and key_freq == self.min_freq:
            self.min_freq += 1
        
        self.freq[key_freq + 1][key] = res
        self.key_to_freq[key] = key_freq + 1
        return res

    def put(self, key: int, value: int) -> None:
        if self.capacity == 0:
            return
        if key in self.key_to_freq:
            key_freq = self.key_to_freq[key]
            self.freq[key_freq].pop(key)
            if not self.freq[key_freq] and key_freq == self.min_freq:
                self.min_freq += 1
            self.freq[key_freq + 1][key] = value
            self.key_to_freq[key] = key_freq + 1
        else:
            if len(self.key_to_freq) == self.capacity:
                k, v = self.freq[self.min_freq].popitem(last = False)
                self.key_to_freq.pop(k)
            self.key_to_freq[key] = 1
            self.freq[1][key] = value
            self.min_freq = 1


# Your LFUCache object will be instantiated and called as such:
# obj = LFUCache(capacity)
# param_1 = obj.get(key)
# obj.put(key,value)

Explain

本题解使用了两个哈希表和一个双向链表来实现 LFU 缓存。第一个哈希表 freq 以访问频率为键,值为一个有序字典,按照访问时间的先后顺序存储键。第二个哈希表 key_to_freq 以键为键,值为对应的访问频率。双向链表用于在插入和删除操作时维护键的访问时间先后顺序。当缓存容量已满,且需要插入新的键值对时,会删除访问频率最低的键中最早访问的那一个。同时维护一个 min_freq 变量,表示当前缓存中访问频率的最小值,以便在删除操作时快速定位到需要删除的键。

时间复杂度: O(1)

空间复杂度: O(capacity)

class LFUCache:

    def __init__(self, capacity: int):
        from collections import OrderedDict, defaultdict
        self.freq = defaultdict(OrderedDict)  # 访问频率哈希表,键为频率,值为按访问时间排序的有序字典
        self.key_to_freq = {}  # 键到访问频率的映射
        self.capacity = capacity  # 缓存容量
        self.min_freq = 0  # 记录当前最小访问频率

    def get(self, key: int) -> int:
        if key not in self.key_to_freq:  # 如果键不存在,返回 -1
            return -1
        key_freq = self.key_to_freq[key]  # 获取键的访问频率
        res = self.freq[key_freq].pop(key)  # 从访问频率对应的有序字典中删除该键
        if not self.freq[key_freq] and key_freq == self.min_freq:  # 如果删除后该访问频率为空,且为最小访问频率,则更新最小访问频率
            self.min_freq += 1
        
        self.freq[key_freq + 1][key] = res  # 将该键插入到访问频率加一的有序字典中
        self.key_to_freq[key] = key_freq + 1  # 更新该键的访问频率
        return res

    def put(self, key: int, value: int) -> None:
        if self.capacity == 0:  # 特判缓存容量为 0 的情况
            return
        if key in self.key_to_freq:  # 如果键已存在
            key_freq = self.key_to_freq[key]  # 获取键的访问频率
            self.freq[key_freq].pop(key)  # 从访问频率对应的有序字典中删除该键
            if not self.freq[key_freq] and key_freq == self.min_freq:  # 如果删除后该访问频率为空,且为最小访问频率,则更新最小访问频率
                self.min_freq += 1
            self.freq[key_freq + 1][key] = value  # 将该键插入到访问频率加一的有序字典中,并更新值
            self.key_to_freq[key] = key_freq + 1  # 更新该键的访问频率
        else:  # 如果键不存在
            if len(self.key_to_freq) == self.capacity:  # 如果缓存已满
                k, v = self.freq[self.min_freq].popitem(last = False)  # 删除访问频率最低的键中最早访问的那一个
                self.key_to_freq.pop(k)  # 从键到访问频率的映射中删除该键
            self.key_to_freq[key] = 1  # 插入新的键,访问频率为 1
            self.freq[1][key] = value  # 将新的键插入到访问频率为 1 的有序字典中
            self.min_freq = 1  # 更新最小访问频率为 1

Explore

在LFUCache中,每次键被访问时,其访问频率需要增加。将键从当前访问频率的字典中删除并重新插入到下一个访问频率的字典中,是为了正确维护键的访问频率信息。这样做不仅更新了键的访问频率,还确保了访问顺序的正确性,因为在访问频率增加后,键在新频率字典中插入的位置会反映最近的访问时间。此操作对于保持LFU缓存的核心功能——按访问频率和时间优先级删除元素——是必要的。

当某个访问频率的字典变为空时,除了更新`min_freq`外,通常不需要执行其他清理操作。这是因为访问频率字典为空意味着没有更多元素在该频率下,故不需要额外的内存清理。然而,从设计和维护角度考虑,可以选择清除空的字典,以避免无用的内存占用。但在LFU缓存的实现上,频繁的创建和删除操作可能会增加额外的开销,因此通常选择仅更新`min_freq`以保持算法的效率。

为了确保在并发环境下操作的原子性,可以使用锁(如互斥锁)来同步访问共享数据结构。在Python中,可以使用`threading.Lock`来实现。在每个`get`和`put`方法开始时加锁,并在方法结束前释放锁,确保在这个过程中,对频率表和键频率映射的任何修改都不会被其他线程中断或覆盖。这种方式可以有效防止数据竞争和不一致性,保证缓存操作的线程安全。

如果`capacity`为0,意味着缓存不允许存储任何元素。理论上,初始化`freq`和`key_to_freq`哈希表在这种情况下是不必要的,因为这些数据结构不会被实际使用。然而,为了保持代码的一致性和可能的未来扩展,可以选择进行初始化,但在`put`方法中应该立即返回,避免任何写入操作。这样做可以防止错误的发生,如果未来修改或误用该缓存实例,代码仍能正常运行而不会引发异常。