杨刚老师课上讲的

用于无线网络中动态功率分配的多智能体深度强化学习

[1808.00490] Multi-Agent Deep Reinforcement Learning for Dynamic Power Allocation in Wireless Networks
这项工作展示了深度强化学习技术在无线网络中进行发射功率控制的潜力。现有技术通常通过解决具有挑战性的优化问题来找到接近最佳的功率分配。这些算法中的大多数由于其计算复杂性和瞬时跨小区信道状态信息（CSI）要求，因此在实际情况下无法扩展到大型网络。
本文基于无模型深度强化学习，开发了一种分布式执行的动态功率分配方案。
每个发送器从几个邻居收集CSI和服务质量（QoS）信息，并相应地调整其自身的发送功率。
目的是使加权求和率效用函数最大化，该函数可以具体化以实现最大求和率或成比例的公平调度。
使用深度Q学习固有地解决了CSI中的随机变化和延迟。
对于典型的网络体系结构，基于代理可用的延迟CSI测量，所示算法可实时实现近乎最佳的功率分配。
所提出的方案特别适用于系统模型不精确且CSI延迟不可忽略的实际情况。

基于深度强化学习的V2V通信资源分配

[1805.07222] Deep Reinforcement Learning based Resource Allocation for V2V Communications
在本文中，我们基于深度强化学习开发了一种用于车对车（V2V）通信的分散式资源分配机制，该机制可应用于单播和广播场景。
根据分散的资源分配机制，自治代理，V2V链路或车辆做出决定，以找到最佳的子带和功率电平进行传输，而无需或不必等待全局信息。
由于所提出的方法是分散的，因此仅产生有限的传输开销。
从模拟结果来看，每个代理都可以有效地学习满足V2V链路上严格的等待时间约束，同时最大程度地减少对车辆到基础设施（V2I）通信的干扰。

无线调度的空间深度学习

[1808.01486] Spatial Deep Learning for Wireless Scheduling
Spatial Deep Learning for Wireless Scheduling - IEEE Journals & Magazine
具有全频率复用的密集无线网络中干扰链路的最佳调度是一项艰巨的任务。
传统方法包括首先估算所有干扰信道强度，然后根据模型优化调度。
然而，由于信道估计在密集网络中是昂贵的，因此这种基于模型的方法是资源密集的并且计算困难。此外，即使找到结果优化问题的局部最优解也可能在计算上很复杂。
本文表明，通过使用深度学习方法，有可能仅基于发射机和接收机的地理位置来绕过信道估计，并可以有效地调度链路，而这些信道在很大程度上是距离相关的路径损耗的函数。这是通过在随机部署的网络上进行无监督训练，以及使用新颖的神经网络体系结构来实现的，该体系结构将受干扰或受干扰的相邻节点的地理空间卷积作为多个反馈阶段的输入，以学习最佳解决方案。
最终的神经网络为总速率最大化提供了近乎最佳的性能，并且能够推广到更大的部署区域以及不同链路密度的部署。
此外，为了提供公平性，本文提出了一种新颖的调度方法，该方法利用对链路的明智选择的子集的求和速率最优调度算法，以最大化网络上的比例公平性目标。
所提出的方法显示出极具竞争力和通用性的网络效用最大化结果。

使用深度强化学习在分布式MIMO Wi-Fi网络中优化吞吐量性能

[1812.06885] Optimizing Throughput Performance in Distributed MIMO Wi-Fi Networks using Deep Reinforcement Learning
本文探讨了利用深度强化学习（DRL）中的概念在实现分布式多用户MIMO（D-MIMO）的Wi-Fi网络中实现动态资源管理的可行性。
D-MIMO是一种技术，通过该技术，一组无线接入点将同步并分组在一起，以同时为多个用户共同提供服务。
本文解决了与D-MIMO Wi-Fi网络有关的两个动态资源管理问题：
（i）D-MIMO组的信道分配
（ii）确定如何将接入点聚类以形成D-MIMO组，以实现最大化用户吞吐量性能。
这些问题被称为NP-Hard，文献中仅存在启发式解决方案。
我们构建了一个DRL框架，学习代理通过该框架与D-MIMO Wi-Fi网络进行交互，了解网络环境，并成功地融合了解决上述问题的策略。
通过基于D-MIMO Wi-Fi网络的大量模拟和在线培训，本文证明了DRL与启发式解决方案相比在用户吞吐量性能方面提高20％的功效，特别是在网络条件动态的情况下。
这项工作还展示了DRL在同时满足多个网络目标方面的有效性，例如，最大程度地提高了用户吞吐量以及其中的吞吐量公平性。

物理层通信的模型驱动深度学习

[1809.06059] Model-Driven Deep Learning for Physical Layer Communications
智能通信逐渐被认为是未来无线通信的主流方向。深度学习（DL）作为机器学习的主要分支，已应用于物理层通信中，并且近年来表现出令人印象深刻的性能提升。
但是，与DL有关的大多数现有工作都集中在数据驱动的方法上，该方法将通信系统视为黑匣子，并通过使用大量数据对其进行训练。训练网络需要足够的计算资源和大量时间，而这在通信设备中很少见到。
相反，模型驱动的DL方法将通信领域的知识与DL相结合，以减少对计算资源和培训时间的需求。
本文回顾了模型驱动的DL方法在物理层通信中的最新应用进展，包括传输方案，接收器设计和信道信息恢复。
提出全面调查后，还将突出强调一些尚待研究的问题。

大规模MIMO CSI反馈的深度学习

[1712.08919] Deep Learning for Massive MIMO CSI Feedback
Deep Learning for Massive MIMO CSI Feedback - IEEE Journals & Magazine
在频分双工模式下，应通过反馈链路将下行链路信道状态信息（CSI）发送到基站，以便可以显示大量多输入多输出的潜在增益。但是，这种传输受到过多反馈开销的阻碍。
在这篇论文中，我们将使用深度学习技术来开发CsiNet，这是一种新颖的CSI感知和恢复{机制}，它可以从训练样本中学习有效地使用通道结构。 CsiNet学习了从CSI到近似最佳数量的表示形式（或代码字）的转换以及从代码字到CSI的逆转换。
我们进行的实验表明，与现有的基于压缩感知（CS）的方法相比，CsiNet可以以显着提高的重建质量恢复CSI。即使在基于CS的方法无法使用的过低压缩区域，CsiNet仍可以保持有效的波束成形增益。

基于深度学习的大规模机器类型通信的快速多用户检测

[1807.00967] Deep Learning Based Fast Multiuser Detection for Massive Machine-Type Communication
具有零星传输的小数据包和低数据速率的大规模机器类型通信（MTC）需要在PHY和MAC层上进行新设计且传输开销较小。基于压缩感知的多用户检测（CS-MUD）旨在通过利用稀疏性（即MTC中零星传输的性质）通过具有低开销的随机访问来检测活动用户。然而，常规的稀疏重构算法的高计算复杂性阻止了在实际通信系统中CS-MUD的实现。
为了克服这个缺点，在本文中，我们提出了一种在大型MTC系统中基于快速深度学习的CS-MUD方法。
特别地，提出了一种新颖的块限制性激活非线性单元，以捕获宽带无线通信系统（或多天线系统）中的块稀疏结构。
仿真结果表明，该方法优于现有的CS-MUD算法，可将计算时间减少十倍。

使用深度强化学习的异构无线网络的载波侦听多路访问

[1810.06830] Carrier-Sense Multiple Access for Heterogeneous Wireless Networks Using Deep Reinforcement Learning
本文研究了一类新型的载波侦听多路访问（CSMA）协议，该协议采用深度强化学习（DRL）技术进行异构无线网络连接，称为载波侦听深度强化学习多路访问（CS-DLMA）。
现有的CSMA协议，例如WiFi的媒体访问控制（MAC），是为所有节点均采用相同协议的同类网络环境而设计的。在存在节点采用其他MAC协议的异构环境中，这样的协议遭受严重的性能下降。
本文表明，DRL技术可用于为异构网络设计有效的MAC协议。特别地，在节点采用不同MAC协议（例如，CS-DLMA，TDMA和ALOHA）的异构环境中，CS-DLMA节点可以学习最大化所有节点的总吞吐量。
此外，与WiFi的CSMA相比，CS-DLMA与其他MAC协议共存时，可以实现更高的总吞吐量和单个吞吐量。
最后但并非最不重要的一点是，CS-DLMA的显着特征是它不需要知道共存MAC的操作机制。它也不需要知道使用这些其他MAC的节点数。

面向论文里面的

频谱资源管理

免许可频段中LTE和WiFi系统的智能共享：深度强化学习方法

[18] TAN J, ZHANG L, LIANG Y, et al. Intelligent sharing for LTE and WiFi Systems in Unlicensed Bands: A Deep Reinforcement Learning Approach[J]. IEEE Transactions on Communications, DOI: 10.1109/TCOMM.2020.2971212.
Intelligent Sharing for LTE and WiFi Systems in Unlicensed Bands: A Deep Reinforcement Learning Approach - IEEE Journals & Magazine
在免许可频段上运行LTE网络以及传统WiFi系统被认为是支持爆炸性增长的移动流量的有前途的技术。在常规的LTE / WiFi频谱共享方案中，LTE系统需要知道WiFi流量需求以优化系统参数以保护WiFi系统，为此，这两个系统需要通过信令交换彼此协作。但是，很难在两个独立的系统之间建立专用信道来交换信令。
因此，在本文中，我们提出了一种智能占空比媒体访问控制协议，以实现LTE和WiFi系统之间有效而公平的频谱共享，而无需进行信号交换。
具体来说，我们首先设计一个占空比频谱共享框架，该框架允许LTE系统通过使用时间共享与WiFi系统共享频谱。
之后，我们开发了基于深度强化学习（DRL）的算法，通过分析WiFi通道活动（例如WiFi通道的闲置/业务）来学习WiFi流量需求，LTE系统可以通过监视WiFi通道来观察该活动。
基于学习到的知识，LTE系统可以自适应地优化LTE传输时间，以最大化其自身的吞吐量，同时为WiFi系统提供足够的保护。
仿真结果表明，在LTE吞吐量和WiFi保护方面，所提出的智能方案的性能可以与精灵辅助的穷举搜索算法相媲美，后者需要通过大量的信令交换来全面了解WiFi流量需求，并且具有很高的实用性。计算复杂度。

用于分布式动态频谱访问的深度多用户强化学习

[22] NAPARSTEK O, COHEN K. Deep multi-user reinforcement learning for distributed dynamic spectrum access[J]. IEEE Transactions on Wireless Communications, 2018, 18(1): 310-323.
[1704.02613] Deep Multi-User Reinforcement Learning for Distributed Dynamic Spectrum Access
我们考虑了在多通道无线网络中最大化网络实用性的动态频谱访问问题。
共享带宽被分成K个正交信道。在每个时隙的开始，每个用户选择一个信道并以一定的传输概率发送一个分组。在每个时隙之后，已经发送了分组的每个用户接收指示其分组是否被成功递送的本地观察（即，ACK信号）。
目的是一种用于访问频谱的多用户策略，该策略以分布式方式最大化某个网络实用程序，而无需用户之间的在线协调或消息交换。
由于较大的状态空间和状态的部分可观察性，因此获得频谱访问问题的最佳解决方案通常在计算上昂贵。
为了解决这个问题，我们开发了一种基于深度多用户强化学习的新型分布式动态频谱访问算法。
具体而言，在每个时隙，每个用户都基于经过训练的深度Q网络将其当前状态映射到频谱访问操作，该网络用于最大化目标功能。
开发了系统动力学的博弈论分析，以建立算法实现的设计原理。
实验结果证明了该算法的强大性能。

使用频谱瀑布的抗干扰通信：一种深度强化学习方法

[23] LIU X, XU Y, JIA L, et al. Anti-jamming communications using spectrum waterfall: A deep reinforcement learning approach[J]. IEEE Communications Letters, 2018, 22(5): 998-1001. doi: 10.1109/LCOMM.2018.2815018
Anti-Jamming Communications Using Spectrum Waterfall: A Deep Reinforcement Learning Approach - IEEE Journals & Magazine
[1710.04830] Anti-jamming Communications Using Spectrum Waterfall: A Deep Reinforcement Learning Approach
这封信通过在线学习调查了动态和未知环境中的抗干扰通信问题。
与现有研究需要了解（估计）干扰模式和参数不同，我们直接使用频谱瀑布，即原始频谱环境。
首先，为应对原始频谱信息无限状态的挑战，构建了一个深层的抗干扰Q网络。
然后，提出了一种深层的抗干扰强化学习算法，以获得最优的抗干扰策略。
最后，仿真结果验证了该方法的有效性。
所提出的方法仅依赖于本地观察到的信息，而无需估计干扰模式和参数，这意味着它可以广泛用于各种抗干扰方案。

功率资源管理

认知无线电中频谱共享的智能功率控制：一种深度强化学习方法

[24] LI X, FANG J, CHENG W, et al. Intelligent power control for spectrum sharing in cognitive radios: A deep reinforcement learning approach[J]. IEEE Access, 2018, 6: 25463-25473. doi: 10.1109/ACCESS.2018.2831240
Intelligent Power Control for Spectrum Sharing in Cognitive Radios: A Deep Reinforcement Learning Approach - IEEE Journals & Magazine
[1712.07365] Intelligent Power Control for Spectrum Sharing in Cognitive Radios: A Deep Reinforcement Learning Approach
我们考虑由主要用户和次要用户组成的认知无线电系统中的频谱共享问题。
主要用户和次要用户以非合作方式工作。具体而言，假定主要用户基于预定义的功率控制策略来更新其发射功率。次要用户不了解主要用户的发射功率或其功率控制策略。
本文的目的是为次级用户开发一种基于学习的功率控制方法，以便与初级用户共享公共频谱。
为了辅助次要用户，在空间上部署了一组传感器节点，以在无线环境中的不同位置收集接收到的信号强度信息。
我们开发了一种基于深度强化学习的方法，次级用户可以使用该方法智能地调整其传输功率，以便在与初级用户进行几轮交互之后，两个用户都可以成功传输自己所需的数据并达到所需的服务质量。
我们的实验结果表明，次要用户可以在几个步骤内从任何初始状态有效地与主要用户互动，以达到目标状态（定义为两个用户都可以成功传输其数据的状态）。

用于无线网络中动态功率分配的多智能体深度强化学习↑

[25] NASIR Y S, GUO D. Multi-agent deep reinforcement learning for dynamic power allocation in wireless networks[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(10): 2239-2250. doi: 10.1109/JSAC.2019.2933973
[1808.00490] Multi-Agent Deep Reinforcement Learning for Dynamic Power Allocation in Wireless Networks

网络资源管理

分层内容交付网络中用于自适应缓存的深度强化学习

[27] SADEGHI A, WANG G, GIANNAKIS G B. Deep reinforcement learning for adaptive caching in hierarchical content delivery networks[J]. IEEE Transactions on Cognitive Communications and Networking, 2019, 5(4): 1024-1033. doi: 10.1109/TCCN.2019.2936193
[1902.10301] Deep Reinforcement Learning for Adaptive Caching in Hierarchical Content Delivery Networks
预计缓存将在下一代内容交付基础结构，蜂窝网络和Internet体系结构中发挥关键作用。通过在非高峰需求实例期间将最流行的内容智能地存储在启用存储的网络实体上，在高峰时段，缓存可以使网络基础结构以及最终用户受益。在这种情况下，在网络实体之间分配有限的存储容量需要分散式缓存方案。许多实际的缓存系统都涉及一个父缓存节点，该父缓存节点连接到多个叶节点以服务于用户文件请求。
为了建模在父节点和叶节点的缓存决策之间的双向交互影响，提出了一种强化学习框架。为了处理较大的连续状态空间，追求了可扩展的深度强化学习方法。
这种新颖的方法依靠一个深层的Q网络来以在线方式学习Q功能，从而学习最佳的缓存策略。
增强的父节点具有学习和适应叶节点的未知策略的能力以及文件请求的时空动态演变的能力，这会产生出色的缓存性能，这通过数值测试得到了证实。

边缘计算支持的物联网中基于联合学习的计算分载优化

[28] REN J, WANG H, HOU T, et al. Federated learning-based computation offloading optimization in edge computing-supported internet of things[J]. IEEE Access, 2019, 7: 69194-69201. doi: 10.1109/ACCESS.2019.2919736
Federated learning-based computation offloading optimization in edge computing-supported internet of things | Proceedings of the ACM Turing Celebration Conference - China
智能城市，工厂，医疗保健系统等的最新可视化对大型物联网（IoT）设备的功能和连接性提出了挑战。因此，出现了边缘计算以通过将繁重的计算任务从它们分担到边缘节点的想法来补充这些能力受限的设备。通过利用此功能，物联网设备能够节省更多能源，并仍保持其应提供的服务质量。
然而，计算卸载决策涉及联合和复杂的资源管理，并且应面对动态工作负载和无线电环境实时确定。
因此，在这项工作中，我们使用部署在物联网设备上的多个深度强化学习（DRL）代理来指导自身的决策。
另一方面，联合学习用于以分布式方式培训DRL代理，旨在使基于DRL的决策切实可行，并进一步降低IoT设备与边缘节点之间的传输成本。
实验结果证实了动态物联网系统中DRL和联合学习的有效性。

人工智能无线通信应用