摘要:
本文提出了一种基于深度强化学习(DRL)的高速缓存存储方法,使其能够适应动态、复杂的移动网络环境。与LRU和LFU相比,该机制不需要先验的流行度分布知识,因此在实践中具有更高的可采用率和灵活性。
数据集:
zipf数据集,(基站容量为50,内容种类为300);完全随机数据集。
对比实验:
采用了LFU、LRU和DDPG算法作为对比算法
框架算法:
基于A3C框架,支持多线程和异步更新学习策略。
相关工作:
在[16]中该工作将边缘卸载任务视为马尔可夫决策过程(MDP)。[17]提出了一种基于q -学习的分布式缓存替换策略来处理卸载任务,提出了一种适用于空间集群蜂窝网络的概率缓存策略,不同流行程度的内容以不同的缓存概率分布在基站集群中。因此,该方法可以灵活应对复杂内容的流行挑战。Blaszczyszyn[18]指出,当基站覆盖重叠区域时,始终缓存最流行的内容不是主要策略。通过推导出不同基站中最受欢迎内容的存储概率,可以显著提高重叠覆盖情况下的命中率。谢的[19]工作中,在寡头垄断市场模型下,分析了多个服务提供商服务器之间的缓存资源分配任务。此外,他们还使用了动态非合作博弈方法来获得SPSs所需的最佳缓存空间。在一项后续研究中,[20]将k近邻与DDPG算法相结合。因此,该模型在高缓存命中率和低计算成本两方面都优于传统的DQN方法。
模型构建:
给每个请求分配优先级,流行度分为短期,中期和长期流行度,高优先级内容成为决定点击率的重要因素;
并行代理:
传统的方法是使用单个代理进行抽样,这导致样本之间的相关性很高。这个问题可能会导致神经网络过度拟合。为了解决这个问题,DQN提出了体验回放。然而,DQN只能进行离线学习,在高动态环境下性能较差。因此,为了实现在线学习,我们同时运行多个学习代理。这些代理相互作用并独立学习。本地代理和全局代理相互更新它们的参数。因此,全局代理从每个本地代理汇总的样本不再相关。此外,多cpu支持的并行学习提供了很高的学习效率。
强化学习模型:
1、Action space:A={0, 1, 2, · · · , C},at= 0表示策略拒绝缓存当前请求,at = i(0 < i≤C)表示替换内容根据当前请求在缓存中索引i。
2、State space:s t = {R t .f, R 1 .f, · · · , R C .f }.我们在时间t中的状态st定义为正在进行的请求R t和缓存内容的所有特征的集合
3、Reward function:r = r short +γ × r middle + γ **2 × r long .(γ是可调节的参数)
模型图
算法:
不是使用神经网络估计Q(s,a)(例如DQN),我们使用状态s作为神经网络的输入,并直接输出动作的概率分布πθ。
结果:
zipf数据集缓存命中率结果图
随机分布数据集缓存命中率结果分布图