期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨善林罗贺胡小建《微电子学与计算机》2006,23(9):203-205,208

为了实现Agent灵活、自主的运行，Agent必须具有很强的学习能力。在BDI模型基础上，引入Q学习方法调整Agent的动作策略。提出了基于Q学习的自主Agent模型，给出了模型的结构及形式化描述。分析了Agent的学习过程。以方格世界的搜索问题为例，验证了模型的正确性和有效性。相似文献

2.

基于强化学习的异构无线网络资源管理算法

下载免费PDF全文

冯陈伟袁江南《电信科学》2015,31(8):99-106

为了充分利用各种无线网络的资源,需要实现异构网络的融合,而异构网络的融合又面临接入控制与资源分配的问题。为此,提出一种基于强化学习的异构无线网络资源管理算法,该算法引入 D2D （device-to-device）通信模式,并可以根据终端不同的业务类型、终端移动性及网络负载条件等状态,选择合适的网络接入方式。同时,为降低存储需求,采用神经网络技术解决连续状态空间问题。仿真结果表明,该算法具有高效的在线学习能力,能够有效地提升网络的频谱效用,降低阻塞率,从而实现自主的无线资源管理。相似文献

3.

基于强化学习的5G网络切片虚拟网络功能迁移算法

唐伦周钰谭颀魏延南陈前斌《电子与信息学报》2020,42(3):669-677

针对5G网络切片架构下业务请求动态性引起的虚拟网络功能(VNF)迁移优化问题,该文首先建立基于受限马尔可夫决策过程(CMDP)的随机优化模型以实现多类型服务功能链(SFC)的动态部署,该模型以最小化通用服务器平均运行能耗为目标,同时受限于各切片平均时延约束以及平均缓存、带宽资源消耗约束。其次,为了克服优化模型中难以准确掌握系统状态转移概率及状态空间过大的问题,该文提出了一种基于强化学习框架的VNF智能迁移学习算法,该算法通过卷积神经网络(CNN)来近似行为值函数,从而在每个离散的时隙内根据当前系统状态为每个网络切片制定合适的VNF迁移策略及CPU资源分配方案。仿真结果表明,所提算法在有效地满足各切片QoS需求的同时,降低了基础设施的平均能耗。

相似文献

4.

基于知识的Agent强化学习算法分析与研究

殷锋社《电子设计工程》2011,19(11):115-117

强化学习具有与环境交互的优势,笔者提出的基于知识的Q-学习算法(KBQL)就是利用Q-学习算法的这个特点,利用Agent的先验知识来缩小Agent学习的状态空间,以加速强化学习的收敛性,同时采用Agent的学习机制克服其知识的不精确性,从而提高学习算法的鲁棒性和适应性。相似文献

5.

基于深度强化学习的云边协同计算迁移研究

下载免费PDF全文

陈思光陈佳民赵传信《电子学报》2021,49(1):157-166

基于单一边缘节点计算、存储资源的有限性及大数据场景对高效计算服务的需求,本文提出了一种基于深度强化学习的云边协同计算迁移机制.具体地,基于计算资源、带宽和迁移决策的综合性考量,构建了一个最小化所有用户任务执行延迟与能耗权重和的优化问题.基于该优化问题提出了一个异步云边协同的深度强化学习算法,该算法充分利用了云边双方的计... 相似文献

6.

基于迁移深度强化学习的低轨卫星跳波束资源分配方案 总被引：1，自引：0，他引：1

陈前斌麻世庆段瑞吉唐伦梁承超《电子与信息学报》2023,45(2):407-417

针对低轨(LEO)卫星场景下,传统资源分配方案容易造成特定小区资源分配无法满足需求的问题,该文提出一种基于迁移深度强化学习(TDRL)的低轨卫星跳波束资源分配方案。首先,该方案联合星上缓冲信息、业务到达情况和信道状态,以最小化卫星上数据包平均时延为目标,建立支持跳波束技术的低轨卫星资源分配优化模型。其次,针对低轨卫星网络的动态多变性,该文考虑动态随机变化的通信资源和通信需求,采用深度Q网络(DQN)算法利用神经网络作为非线性近似函数。进一步,为实现并加速深度强化学习(DRL)算法在其他目标任务中的收敛过程,该文引入迁移学习(TL)概念,利用源卫星学习的调度任务快速寻找目标卫星的波束调度和功率分配策略。仿真结果表明,该文所提出的算法能够优化卫星服务过程中的时隙分配,减少数据包的平均传输时延,并有效提高系统的吞吐量和资源利用效率。相似文献

7.

一种车载服务的快速深度Q学习网络边云迁移策略

彭军王成龙蒋富顾欣牟玥玥刘伟荣《电子与信息学报》2020,42(1):58-64

智能网联交通系统中车载用户的高速移动,不可避免地造成了数据在边缘服务器之间频繁迁移,产生了额外的通信回传时延,对边缘服务器的实时计算服务带来了巨大的挑战。为此,该文提出一种基于车辆运动轨迹的快速深度Q学习网络(DQN-TP)边云迁移策略,实现数据迁移的离线评估和在线决策。车载决策神经网络实时获取接入的边缘服务器网络状态和通信回传时延,根据车辆的运动轨迹进行虚拟机或任务迁移的决策,同时将实时的决策信息和获取的边缘服务器网络状态信息发送到云端的经验回放池中;评估神经网络在云端读取经验回放池中的相关信息进行网络参数的优化训练,定时更新车载决策神经网络的权值,实现在线决策的优化。最后仿真验证了所提算法与虚拟机迁移算法和任务迁移算法相比能有效地降低时延。相似文献

8.

一种基于联邦学习资源需求预测的虚拟网络功能迁移算法

唐伦吴婷周鑫隆陈前斌《电子与信息学报》2022,44(10):3532-3540

针对网络切片场景下时变网络流量引起的虚拟网络功能(VNF)迁移问题,该文提出一种基于联邦学习的双向门控循环单元(FedBi-GRU)资源需求预测的VNF迁移算法。该算法首先建立系统能耗和负载均衡的VNF迁移模型,然后提出一种基于分布式联邦学习框架协作训练预测模型,并在此框架的基础上设计基于在线训练的双向门控循环单元(Bi-GRU)算法预测VNF的资源需求。基于资源预测结果,联合系统能耗优化和负载均衡,提出一种分布式近端策略优化(DPPO)的迁移算法提前制定VNF迁移策略。仿真结果表明,两种算法的结合有效地降低了网络系统能耗并保证负载均衡。相似文献

9.

强化学习中的迁移:方法和进展 总被引：2，自引：0，他引：2

下载免费PDF全文

王皓高阳陈兴国《电子学报》2008,36(Z1):39-43

传统机器学习方法认为不同的学习任务彼此无关,但事实上不同的学习任务常常相互关联.迁移学习试图利用任务之间的联系,利用过去的学习经验加速对于新任务的学习.机器学习各分支都已展开了对迁移学习的研究.本文综述了强化学习的迁移技术,依据认知心理学的理论将现有技术分为行为迁移和知识迁移两大类,并介绍、分析了各自的特点,并提出了一些开放性的问题. 相似文献

10.

运营商网络中基于深度强化学习的服务功能链迁移机制

陈卓冯钢何颖周杨《电子与信息学报》2020,42(9):2173-2179

为改善运营商网络提供的移动服务体验,该文研究服务功能链(SFC)的在线迁移问题。首先基于马尔可夫决策过程(MDP)对服务功能链中的多个虚拟网络功能(VNF)在运营商网络中的驻留位置迁移进行模型化分析。通过将强化学习和深度神经网络相结合提出一种基于双深度Q网络(double DQN)的服务功能链迁移机制,该迁移方法能在连续时间下进行服务功能链的在线迁移决策并避免求解过程中的过度估计。实验结果表明,该文所提出的策略相比于固定部署算法和贪心算法在端到端时延和网络系统收益等方面优势明显,有助于运营商改善服务体验和资源的使用效率。相似文献

11.

基于改进DQN强化学习算法的弹性光网络资源分配研究

尚晓凯韩龙龙翟慧鹏《光通信技术》2023,(5):12-15

针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络（DQN）强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明：改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Er l ang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。相似文献

12.

基于多Agent强化学习的危险车辆预警算法

王泽学万启东秦杨梅樊森清肖泽仪《电子科技》2020,33(9):44-49

针对目前行人易受到车辆撞击,且缺乏主动保护手段的问题,文中设计了一个包括雷达等模块的智能可穿戴设备来保护行人免受车辆的冲击。在此基础上,提出了基于模糊综合评价的安全智能算法,从行人的角度出发,综合考虑将雷达探测的车辆数据、当地道路交通状况、天气、行人状态等多种影响因素作为评价指标。为提高算法的准确性和适应性,提出了基于BP神经网络和多Agent强化学习的方法赋予模糊综合评价的各指标动态权重。仿真验证结果显示,相较于AHP等取权重方法,该预警算法的警报准确率提高了55%以上;相较单Agent强化学习,该方法学习效率提高了近28倍,说明该智能穿戴设备可以对车辆撞击行人进行有效地预测和警告。相似文献

13.

基于迁移集成学习的无人机图像识别算法

程千顷王红军丁希成陈璐《电讯技术》2023,63(9):1277-1284

针对当前小型无人机目标图像识别方法准确率较低的问题,提出了一种基于迁移集成学习的无人机图像识别算法。首先,基于AlexNet、VGGNet-19、Inception-V3以及ResNet-50四种结构具有差异的卷积神经网络对源数据集进行预训练,获取图像的深层次特征;然后,对目标数据集进行迁移学习,得到目标的分类特征,构建分类模型;之后,采用相对多数投票法和加权平均法的集成学习方法,对分类模型进行集成得到迁移集成模型。构建了一个包含小型无人机图像、飞鸟图像以及直升机图像的图像数据集UavNet,在对数据集进行数据增强的基础上开展了图像识别算法性能实验,结果表明,算法对多类目标的识别准确率为99.42%,无人机类目标识别的F1-score指标为99.12%,优于主流的卷积神经网络方法和传统的支持向量机方法,具有一定的理论意义和应用价值。相似文献

14.

基于深度强化学习的异构云无线接入网自适应无线资源分配算法

陈前斌管令进李子煜王兆堃杨恒唐伦《电子与信息学报》2020,42(6):1468-1477

为了满足无线数据流量大幅增长的需求,异构云无线接入网(H-CRAN)的资源优化仍然是亟待解决的重要问题。该文在H-CRAN下行链路场景下,提出一种基于深度强化学习(DRL)的无线资源分配算法。首先,该算法以队列稳定为约束,联合优化拥塞控制、用户关联、子载波分配和功率分配,并建立网络总吞吐量最大化的随机优化模型。其次,考虑到调度问题的复杂性,DRL算法利用神经网络作为非线性近似函数,高效地解决维度灾问题。最后,针对无线网络环境的复杂性和动态多变性,引入迁移学习(TL)算法,利用TL的小样本学习特性,使得DRL算法在少量样本的情况下也能获得最优的资源分配策略。此外,TL通过迁移DRL模型的权重参数,进一步地加快了DRL算法的收敛速度。仿真结果表明,该文所提算法可以有效地增加网络吞吐量,提高网络的稳定性。

相似文献

15.

基于强化学习算法的路径规划技术分析

张琰罗甜《中国高新科技》2022,(23):35-37

近年来,强化学习路径规划技术在各个领域逐渐凸显出技术优势,在与信息技术、GPS技术等高新技术的结合下,成为林业领域、工业领域甚至是军事领域的重要技术组合。为进一步了解强化学习路径规划技术的应用优势,文章将其与无人机技术结合,分析无人机在复杂工作环境下受到诸多外界因素干扰,在无法抓取准确定位信息时学习路径规划状态。通过具体应用案例研究方式,探究无人机飞行过程中强化学习算法对无人机路径规划的影响。在获取具体应用案例实验数据情况下,了解到改进强化学习算法可以调整无人机路径规划方案,帮助无人机在复杂环境下快速完成任务。相似文献

16.

强化学习算法在雷达智能抗干扰中的应用

汪浩王峰《现代雷达》2020,(3):40-44,48

雷达在工作过程中所应对的干扰场景复杂且多变,所具有的反干扰措施难以穷举。人工设计的反干扰流程与抑制策略在面对这些对抗场景时,由于受限于专家的经验知识,其反干扰性能难以保证。对此,文中从雷达抗干扰的应用需求出发,通过引入强化学习方法,提出一种基于强化学习模型的智能抗干扰方法。分别利用Q学习与Sarsa两种典型的强化学习算法对反干扰模型中的值函数进行了计算并迭代,使得反干扰策略具备了自主更新与优化功能。仿真结果表明,强化学习算法在训练过程中能够收敛并实现反干扰策略的优化。相比于传统的反干扰设计手段,雷达反干扰的智能化程度得到了有效提升。相似文献

17.

基于深度迁移学习的动态频谱快速适配抗干扰方法

下载免费PDF全文

李思达徐逸凡刘杰林凡迪韩昊易剑波徐煜华《信息对抗技术》2024,(1):33-45

机器学习逐渐发展成为一种成熟强大的技术工具，并被广泛应用于无线通信抗干扰领域。其中，较为典型的有基于深度强化学习的抗干扰方法，通过与动态、不确定通信环境的不断交互来学习最优用频策略，有效解决动态频谱接入抗干扰的问题。然而，由于外界电磁频谱空间复杂、干扰模式样式动态多变，从头开始学习复杂的抗干扰通信任务往往时效性差，导致学习效率和通信性能显著下降。针对上述问题，提出基于深度迁移学习的动态频谱快速适配抗干扰方法。首先，通过构建预训练模型对已知干扰模式进行学习；其次，使用卷积神经网络提取现实场景下的感知频谱数据，重用过往经验优先启动加速适配；最后，运用微调策略辅助强化学习实施在线抗干扰信道接入。仿真结果表明，相较于传统强化学习算法，所提方法能够有效加快算法收敛速度，提升通信设备抗干扰性能。相似文献

18.

基于半监督的SVM迁移学习文本分类算法

谭建平刘波肖燕珊《无线互联科技》2016,(4):71-75

随着互联网的快速发展,文本信息量巨大,大规模的文本处理已经成为一个挑战。文本处理的一个重要技术便是分类,基于SVM的传统文本分类算法已经无法满足快速的文本增长分类。于是如何利用过时的历史文本数据(源任务数据)进行迁移来帮助新产生文本数据进行分类显得异常重要。文章提出了基于半监督的SVM迁移学习算法(Semi-supervised TL_SVM)来对文本进行分类。首先,在半监督SVM的模型中引入迁移学习,构建分类模型。其次,采用交互迭代的方法对目标方程求解,最终得到面向目标领域的分类器。实验验证了基于半监督的SVM迁移学习分类器具有比传统分类器更高的精确度。相似文献

19.

基于值函数迁移的启发式Sarsa算法

下载免费PDF全文

周权牛英滔《电波科学学报》2023,4(5):816-824

在动态干扰环境下的多节点无线传感器网络中,随着状态-动作空间的增大,传统强化学习难以收敛. 为克服这一问题,本文提出一种基于迁移强化学习的快速抗干扰算法,即将多智能体Q学习和值函数迁移方法相结合. 首先,将多节点通信抗干扰问题建模为马尔科夫博弈;然后,引入互模拟关系度量不同状态-动作对之间的相似性;最后,采用多智能体Q学习算法学习抗干扰策略,并在每一步Q值更新后,根据不同状态-动作对之间的相似性进行值函数迁移. 仿真结果表明,在分时隙传输的在线抗干扰问题中,所提算法的抗干扰性能显著优于正交跳频法和随机跳频法,在达到相同抗干扰效果时,所需的迭代次数远少于常规Q学习算法.

相似文献

20.

基于元学习的无监督风格迁移算法研究

下载免费PDF全文

李鑫然《移动信息》2023,45(6):213-215

最近,在生成式对抗网络和足够的非配对训练数据下,无监督领域风格迁移取得了较高的性能。然而,现有的领域迁移框架大多基于庞大的训练数据集,且只能根据训练图像进行特定类别的风格迁移,忽略了其中的学习经验被,使获得的模型不能适应新的领域。文中对传统的非配对循环生成对抗网络Cycle-GAN进行了改进,并使用元学习方法训练了无监督领域的风格迁移问题。另外,文中提出的模型在7个不同的双域迁移任务上证明了其有效性,当对每个新领域进行小样本训练时,该算法均优于传统的风格迁移算法。相似文献