首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 223 毫秒
1.
陈道琨  刘芳芳  杨超 《软件学报》2022,33(8):4452-4463
很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不能有效地保障决策的安全性.在受限马尔可夫决策过程的基础上,通过对动作空间添加安全约束,设计了安全Sarsa (λ)方法和安全Sarsa方法.在求解过程中,不仅要求智能体得到最大的状态-动作值,还要求其满足安全约束的限制,从而获得安全的最优策略.由于传统的强化学习求解方法不再适用于求解带约束的安全Sarsa (λ)模型和安全Sarsa模型,为在满足约束条件下得到全局最优状态-动作值函数,提出了安全强化学习的求解模型.求解模型基于线性化多维约束,采用拉格朗日乘数法,在保证状态-动作值函数和约束函数具有可微性的前提下,将安全强化学习模型转化为凸模型,避免了在求解过程中陷入局部最优解的问题,提高了算法的求解效率和精确度.同时,给出了算法的可行性证明.最后,实验验证了算法的有效性.  相似文献   

2.
随着高校的不断扩招,如何用有限的资源来保持教学的有序性,使高校智能排课成为一个多约束、多目标优化问题。传统的智能排课算法效率低,并且不能很好的解决课程冲突的问题,无法满足现代高校教务管理的要求。该文对排课问题进行分析,在对可能的约束条件进行归纳的基础上,建立了比较通用的排课模型;然后根据模型,设计了相应的改进遗传算法,常识在满足所有硬约束条件和尽可能多的软约束条件的情况下实现多校区智能排课。实验结果表明,利用算法进行不同场景下的排课性能测试,测试结果表明了算法的实际可行性。  相似文献   

3.
传统求解约简的启发式算法采用单一的度量指标作为约束条件,但这一策略并不能保证约简满足多重度量指标下约束需求。除此之外,绝大多数的约简定义是建立在考虑所有决策类基础上的,而忽视了不同决策类别所对应的度量指标在约简前后的变化情况。针对这些问题,提出了一种面向局部多约束的属性约简策略,其目的是使得每个决策类别都能够满足多重度量指标下的约束条件。借助邻域粗糙集模型,在UCI数据集上将传统约简策略与局部多约束约简策略进行了对比分析,将近似质量与条件熵作为多重约束中的度量指标,实验结果表明局部多约束约简能够在近似质量满足约束条件的前提下,显著降低条件熵,从而展现了局部多约束约简的有效性。  相似文献   

4.
基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系统中的环境非稳定性和动作空间指数爆炸等问题。文中首先说明了进行值函数分解的原因;其次,介绍了多智能体深度强化学习的基本理论;接着根据是否引入其他机制以及引入机制的不同将基于值分解的多智能体深度强化学习算法分为3类:简单因子分解型、基于IGM(个体-全局-最大)原则型以及基于注意力机制型;然后按分类重点介绍了几种典型算法并对算法的优缺点进行对比分析;最后简要阐述了所提算法的应用和发展前景。  相似文献   

5.
分布式任务决策是提高多智能体系统自主性的关键. 以异构多智能体协同执行复杂任务为背景, 首先建立 了一种考虑任务载荷资源约束、任务耦合关系约束及执行窗口约束等条件的异构多智能体分布式联盟任务分配模 型; 其次, 对一致性包算法(CBBA)进行了扩展, 提出了基于改进冲突消解原则的一致性联盟算法(CBCA), 以实现异 构多智能体协同无冲突任务分配, 并进一步证明了在一定条件下CBCA算法收敛于改进顺序贪婪算法(ISGA). 最后 通过数值仿真, 验证了CBCA算法求解复杂约束条件下异构多智能体联盟任务分配问题的可行性和快速性.  相似文献   

6.
一种新的多智能体Q学习算法   总被引:2,自引:0,他引:2  
郭锐  吴敏  彭军  彭姣  曹卫华 《自动化学报》2007,33(4):367-372
针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择. 同时对算法的收敛性和学习性能进行了分析.该算法在多智能体系统RoboCup中的应用进一步表明了算法的有效性与泛化能力.  相似文献   

7.
高智能自动组卷算法要求找到最大程度地满足多重约束条件的试题组合。本文提出一种高智能自动组卷的算法模型。它利用树做为基本数据结构,充分考虑了多重组件因素之间的平衡,并实现了算法和数据存储的分离。此算法模型满足多种约束因素、多种策略选择的组卷选择,并提供了高可扩展性。  相似文献   

8.
针对非确定马尔可夫环境下的多智能体系统,提出了多智能体Q学习模型和算法。算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择。在实验中,成功实现了智能体的决策,提高了AFU队的整体的对抗能力,证明了算法的有效性和可行性。  相似文献   

9.
目的体映射建立了两个3维体网格之间的对应关系,是计算机图形学中的重要研究方向。很多应用要求体映射是无翻转的,即其雅可比矩阵的行列式处处大于0。然而,现有的无翻转体映射生成算法经常无法完全消除翻转。挑战主要在于很难在保证满足位置约束的前提下消除映射的翻转。为此,提出一种新的无翻转体映射计算方法,核心是一种新的变形方法。方法首先放松位置约束,然后在变形过程中通过线搜索的方式保证不产生翻转,最后将网格无翻转地变形到满足位置约束。为实现这个变形过程,提出一种雅可比矩阵引导的变形算法。虽然现有的无翻转体映射方法不能完全消除翻转,但其雅可比矩阵可以作为本文变形算法的指导。此外,优化了位置能量,使得变形网格最终能够满足位置约束要求。为了满足体映射低扭曲的要求,算法最后在固定位置约束的前提下进一步优化了体映射的扭曲能量。结果对大量复杂网格进行实验,本文算法能够保证生成无翻转的体映射,并且通过多步优化最终结果均能满足给定的位置约束要求。结论通过与现有其他算法的优点和局限性对比,结果表明本文算法具有较好的鲁棒性。本文算法从一个全新的角度促进了无翻转体映射生成技术的进步与发展。  相似文献   

10.
耿超  武永宝  孙佳  刘剑  薛磊 《控制与决策》2024,39(2):527-535
针对一阶多智能体系统提出一种抗干扰的分布式控制算法,在固定时间内解决具有状态约束和外部扰动存在情况下的多智能体系统凸优化问题.该算法分为两部分:第1部分使得每个智能体在任意初始条件下都能在固定时间内收敛到一致;第2部分在满足状态约束条件的同时,使所有局部目标函数的总和在固定时间内取得最小值.该算法能够在外部有界扰动存在的情况下抑制干扰信号,获得最优解,且收敛时间不受初始状态和外部扰动的影响,可以根据任务需求离线地预分配任务建立时间.利用凸优化和固定时间李雅普诺夫稳定性理论证明算法在有界扰动存在时的固定时间收敛性,最后通过智能电网中经济调度问题的实例验证算法的有效性和优越性.  相似文献   

11.
基于协同进化蚁群算法的多播QoS路由算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于协同进化蚁群算法的求解QoS(Quality of Service)多播路由问题的新算法。算法中控制参数及路由选择策略根据迭代过程所处的不同阶段自适应调整。综合考虑QoS路由中所有约束条件的同时,也充分考虑各个约束自身的独立特性。仿真结果证明了算法收敛速度快,能满足实际网络服务质量的要求。  相似文献   

12.
Temporal constraints pose a challenge for conditional planning, because it is necessary for a conditional planner to determine whether a candidate plan will satisfy the specified temporal constraints. This can be difficult, because temporal assignments that satisfy the constraints associated with one conditional branch may fail to satisfy the constraints along a different branch. In this paper we address this challenge by developing the Conditional Temporal Problem (CTP) formalism, an extension of standard temporal constraint-satisfaction processing models used in non-conditional temporal planning. Specifically, we augment temporal CSP frameworks by (1) adding observation nodes, and (2) attaching labels to all nodes to indicate the situation(s) in which each will be executed. Our extended framework allows for the construction of conditional plans that are guaranteed to satisfy complex temporal constraints. Importantly, this can be achieved even while allowing for decisions about the precise timing of actions to be postponed until execution time, thereby adding flexibility and making it possible to dynamically adapt the plan in response to the observations made during execution. We also show that, even for plans without explicit quantitative temporal constraints, our approach fixes a problem in the earlier approaches to conditional planning, which resulted in their being incomplete.  相似文献   

13.
自动化渗透测试通过将人工找寻可能攻击路径的过程自动化,可大幅降低渗透测试的成本。现有方法主要利用单一Agent执行攻击任务,导致攻击动作执行耗时长,渗透效率不高;若考虑多个Agent协同攻击,由于每个Agent的局部状态有多个维度,总的规划问题的状态空间会呈指数级增长。针对上述问题,提出了基于多Agent联合决策的队组协同攻击规划方法。该方法首先将多Agent协同攻击路径规划问题转化为联合决策约束下的攻击目标分配问题,建立多Agent集中决策模式;然后以CDSO-CAP为模型基础,利用联合决策矢量矩阵JDVM计算渗透攻击奖励,并采用贪婪策略搜索多Agent的最优攻击目标。实验结果表明,与单Agent规划方法相比,该方法的收敛性相近,但执行轮次更短,更适合在多目标网络场景内进行快速攻击规划。  相似文献   

14.
针对多个出退勤车场的城市轨道交通线路,研究乘务任务配对问题的数学模型和算法,在满足各车场出退勤任务守恒的前提下,尽可能提高整体值乘效率.首先,考虑出退勤约束、轮换约束、用餐约束和工作量约束,构建任务段衔接网络有向图,并设计广度搜索算法搜寻满足各班种要求的候选任务池.然后,在此基础上,以乘务总值乘费用最小为目标,构建乘务任务配对问题的集覆盖模型.接着,为了提高大规模问题的求解效率,设计基于列生成思想的启发式求解算法.最后,以南昌地铁1号线为例,通过实例验证发现:所提出方法能够合理安排早班和夜班任务的出、回场方式,很好地满足了各车场夜、早任务守恒需求;相对于现行方案,有效减少了两个乘务任务,且任务段平均衔接时间减少了1分17秒;所提出模型和算法能够满足多车场出退勤需求,且保证了值乘效率,能够为实际运营提供决策支持.  相似文献   

15.
杜鹃  丁爱萍  汪传建  张卓 《计算机应用》2010,30(10):2598-2601
目前仍然缺乏使用遗传算法构造概念的研究。为此,首先把形式概念的构造问题转换为以形式背景的对象幂集和属性幂集组合空间为搜索空间,以伽罗瓦联系为约束条件的约束最优化问题;然后提出一个新颖的基于遗传演化的概念生成算法——遗传概念生成算法(Geacob)。该算法采用变长结构编码,不仅满足概念形式的表示和演化过程的需要,而且使该算法具有更好的扩展性和通用性。实验表明了该遗传算法求解形式概念的可行性和有效性。  相似文献   

16.
基于代价模型的不一致XML 数据修复启发式计算   总被引:1,自引:1,他引:0  
在实际应用中,为不一致的XML 文档计算最优修复意义重大.但求解最优修复是一个NP 完全问题,特别是在XML 文档同时违反函数依赖约束和主键约束时.提出一个基于代价模型的、可以在多项式时间内完成的启发式修复求解算法.该算法首先借助索引表,在一遍扫描原始XML 文档的情况下寻找不一致数据集,然后为每一类约束的不一致数据集构造候选修复,同时计算其修复代价,最后启发式地求解一个代价最小的修复方案.实验结果表明,该算法的时间复杂度不超过冲突类的3 次方,即便是在不一致数据量很大、噪声比例很大以及涉及多类语义约束时,也能较快地完成修复.  相似文献   

17.
卫萌菡  秦爽  孙三山 《计算机应用》2014,34(9):2482-2485
针对协作网络中的功率分配问题,提出基于Stackelberg博弈的分配策略。首先建立博弈模型,源节点根据中继节点分配的功率给出价格;中继节点根据自身资源情况、信道状态、位置信息以及源节点提出的价格,进行协作传输功率的分配,从而构建用户效用函数;接着证明了该效用函数满足凹函数的条件,且存在均衡点,因此参与决策的用户可以通过求解协作功率和价格的Stackelberg均衡解(SE)最大化自己的效用;最后,通过仿真实验验证了均衡点的存在,并对源节点位置不同情况下节点的价格、功率和效用进行了分析,实验中离中继更近的源节点的协作功率和效用分别是距离较远用户的1.29倍和1.37倍。理论分析与实验结果证明了策略的有效性,而且该策略能适用于协作网络及其他分布式网络。  相似文献   

18.
Collaborative applications are characterized by high levels of data sharing. Optimistic replication has been suggested as a mechanism to enable highly concurrent access to the shared data, whilst providing full application-defined consistency guarantees. Nowadays, there are a growing number of emerging cooperative applications adequate for Peer-to-Peer (P2P) networks. However, to enable the deployment of such applications in P2P networks, it is required a mechanism to deal with their high data sharing in dynamic, scalable and available way. Previous work on optimistic replication has mainly concentrated on centralized systems. Centralized approaches are inappropriate for a P2P setting due to their limited availability and vulnerability to failures and partitions from the network. In this paper, we focus on the design of a reconciliation algorithm designed to be deployed in large scale cooperative applications, such as P2P Wiki. The main contribution of this paper is a distributed reconciliation algorithm designed for P2P networks (P2P-reconciler). Other important contributions are: a basic cost model for computing communication costs in a DHT overlay network; a strategy for computing the cost of each reconciliation step taking into account the cost model; and an algorithm that dynamically selects the best nodes for each reconciliation step. Furthermore, since P2P networks are built independently of the underlying topology, which may cause high latencies and large overheads degrading performance, we also propose a topology-aware variant of our P2P-reconciler algorithm and show the important gains on using it. Our P2P-reconciler solution enables high levels of concurrency thanks to semantic reconciliation and yields high availability, excellent scalability, with acceptable performance and limited overhead.  相似文献   

19.
为保证系统的安全性并体现授权的有效性,结合部分最大可满足性问题(Partial MAX-SAT)的研究,提出一种基于Partial MAX-SAT求解法的授权查询方法。使用转换规则将静态授权逻辑和动态互斥角色约束转化为严格子句,采用子句更新算法将满足不同匹配的请求权限转化为松弛子句,并利用子句编码及递归算法寻求真值指派,以满足所有严格子句和尽可能多的松弛子句。实验结果表明,该方法搜索的角色组合能够保证系统的安全性,并满足最小权限分配要求,且最大、精确匹配请求的查询效率优于MAX-SAT求解法。  相似文献   

20.
研究传感器节点随机部署于监测区域内,无节点地理位置信息情况下,如何能量有效地保证网络的通信连通与感知覆盖;节点采用基于概率的联合感知模型。提出CDS-based SSCA算法,其为一种基于连通支配集构造树的节点调度机制,每个节点根据剩余能量和与父节点的距离来设置等待时间及成为候选节点优先级。模拟实验结果显示,本算法能够能量有效地满足感知覆盖和连通覆盖要求;与ASW算法相比较,工作节点个数较少,网络生命周期明显延长,降低了网络整体耗能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号