期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

林怀清王斌周岩《计算机科学》2010,37(10):85-88

P2P网络的开放、匿名特性使得系统极易遭受恶意用户的攻击,信任模型是减少此类威胁的有效方法。信任模型的有效性依赖于信任数据的可靠性,因此信任数据对于信任模型来说至关重要。无证书加密方案可以消除传统PKI系统的证书管理开销,同时可以消除基于身份加密系统中的密钥泄露问题。提出了一种基于无证书加密方案的安全协议,用于混合式P2P网络中信任数据的管理。加密系统的安全性基于双线性DifficHcllman问题,利用串空间证明了协议可以实现交互双发认证以及信任数据安全性。相似文献

2.

一个基于信任的P2P访问控制模型

刘义春《计算机工程与应用》2008,44(1):145-147

多数访问控制模型都针对集中式的和相对静态的系统,不适宜主客体动态变化的协同环境。文章分析了P2P系统的信任机制,介绍了考虑事务上下文因素的信任度计算方法,提出一种基于信任的动态访问控制模型dTBAC,以解决P2P环境的安全问题。该模型从网络个体信任的角度建立访问控制体制,根据主客体的信任值对访问权限进行动态管理。文章还就P2P应用中不同的访问服务类型给出了具体的访问授权策略。相似文献

3.

基于群签名的远程测量系统安全协议

郭荣祥林海涛《微计算机信息》2008,24(3):64-65

在我们设计的远程测量系统中,多个基于ARM的嵌入式系统位于测量点,管理员可通过网络对其进行访问.为实现系统的安全访问,设计了基于群签名的远程测量系统访问协议.本协议采用可验证的、无可信中心的(k,n)门限密码系统产生系统的公/私密钥,征集k个管理者为系统中的用户生成证书和访问测量系统的公/私密钥.分析显示协议能极好的抵御各种攻击. 相似文献

4.

一种基于可信计算的P2P信誉管理模型

栗民周雁舟李超零《计算机安全》2011,(11):6-10

针对P2P信誉模型中的信任值管理问题,提出了一种基于可信计算的P2P信誉管理模型,通过采用分布式存储方式将所有信任值分布存储到整个网络中,并在信任值存储和传输协议中引入了DAA证明协议,从而使模型在实现高效的信任值管理的同时,具有身份认证性、状态可信性、数据安全性和可扩展性等特点. 相似文献

5.

基于P2P模式的身份验证系统

LIU Mu-xing 孙济洲《微处理机》2008,29(2)

P2P(Peer-to-Peer)网络是一种新型的不依赖于集中式服务器的分布式网络模型。将P2P技术应用于身份验证服务,使系统在节点间分配来自用户的身份验证请求。首先提出在节点上采用Agent技术进行身份验证和证书管理,并在系统中引入信任机制来优先选择邻居节点和评价信息质量。然后介绍了身份验证系统的结构和用户访问本系统的实例,最后讨论了系统的通信方式。相似文献

6.

普适环境中的隐私保护认证协议设计

下载免费PDF全文

王硕罗颖孙凌霍士伟《计算机工程》2012,38(6):129-131

针对普适环境中的认证和隐私保护问题,运用哈希链和部分盲签名技术,提出一种新的隐私保护认证协议。该协议运用哈希链构造信任书,保证每个信任书只能使用一次,利用部分盲签名在信任书中嵌入用户访问次数,对用户的访问次数进行控制。在实现用户匿名访问和双向认证的同时,解决服务滥用和非授权访问问题。仿真结果表明,与同类协议相比,该协议具有更好的安全特性和较高的执行效率。相似文献

7.

云环境下虚拟实验室多域访问权限控制算法

董薇窦立君《计算机仿真》2023,(2):385-389

传统虚拟实验室访问权限控制算法无法更新所采集的数据信任值，忽略了对用户访问权限的调整，导致算法存在访问成功率和云服务成功率均偏低的问题。因此提出云环境下虚拟实验室多域访问权限控制算法。在云环境下采集用户行为信任证据，并计算直接信任值、信誉值和推荐信任值，融合上述计算结果获得综合信任值，并对其更新处理，获得用户行为信任证据的最终综合信任值，以此为依据调整云环境中用户访问权限，在云环境中实现虚拟实验室多域访问的权限控制。仿真结果表明，所提算法可准确计算用户行为证据的综合信任值，且访问成功率高，云环境实验室的服务质量较高。相似文献

8.

P2P中基于信任和属性的访问控制

封孝生王桢文黎湘运《计算机科学》2011,38(2):28-31,41

P2P具有无集中控制节点、节点对等自治和网络动态的特点,这些特点为实施访问控制带来很大的挑战,传统的访问控制技术不能很好地适应对等网环境。首先对现有的对等网环境中的访问控制技术进行研究,然后在基于信任模型的角色访问控制的基础上,针对无法区分通过信任模型计算出相同结果的用户的问题,提出了基于信任和属性的访问控制。基于信任和属性的访问控制引入资源属性和用户属性来分别描述资源和用户,依据用户属性、信任模型计算出的数值、环境属性和授权策略来建立用户角色指派关系,依据资源属性和授权策略来建立角色权限指派关系,从而解决基于信任模型的角色访问控制存在的问题。相似文献

9.

基于RBAC的P2P网络环境信任模型研究

文珠穆卢正鼎唐卓辜希武《计算机科学》2008,35(6):32-36

P2P网络的匿名性和动态性带来了许多安全问题,传统的分布式访问控制模型以及信任管理模型并不能很好地适应对等网络环境.本文提出了一种信任管理加权限控制的双重验证方法来实现P2P网络环境中的节点协作和资源访问等安全互操作.节点用户通过本文中的轻量级身份证书,不仅可以验证其合法身份,同时也可以通过该证书中用户的相关角色信息来获取对资源的访问控制权限.而且通过证书中的信任度字段,系统可以吊销低信任度的节点的证书,能有效地遏制恶意节点的非法行为.本文重点介绍了用户信任度的计算,以及用户节点身份证书的获取以及权限验证.最后,通过相关的实验,验证了本方法在效率上要优于传统的信任管理模型. 相似文献

10.

一种面向信任管理的委托授权模型及其在P2P安全中的应用 总被引：1，自引：0，他引：1

张志勇裴庆祺杨林《计算机科学》2009,36(10):72-76

在信任管理中现有的委托授权模型并未涉及对角色、匿名用户等实体间信任关系的定义与度量,且缺少相关的细粒度形式化模型和委托授权安全协议其无法有效地满足信任管理系统的应用需求。现面向信任管理提出了一种能够刻画实体间信任关系的形式化委托授权模型DAMfor TM(Delegation Authorization Model for Trust Management),通过引入信任罚函数对实体的信任度量值加以动态调整。同时给出了支持可信计算的信任委托与角色委托等安全协议,以及在P2P安全中的应用实例。该实例表明,所提出的模型及安全协议构建了Peer间的信任委托关系,并通过终端完整性的远程证明确保了计算平台与共享资源的安全性。相似文献

11.

平均报酬模型强化学习理论、算法及应用

下载免费PDF全文

黄炳强曹广益李建华《计算机工程》2007,33(18):18-19,3

折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬模型强化学习的两个主要算法以及主要应用。相似文献

12.

基于平均奖赏强化学习算法的零阶分类元系统

臧兆祥李昭王俊英但志平《计算机工程与应用》2016,52(21):14-20

零阶学习分类元系统ZCS（Zeroth-level Classifier System）作为一种基于遗传的机器学习技术（Genetics-Based Machine Learning）,在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的应用领域。基于ZCS的现有框架,提出了一种采用平均奖赏强化学习技术（R-学习算法）的分类元系统,将ZCS中的折扣奖赏强化学习方法替换为R-学习算法,从而使ZCS一方面可应用于需要优化平均奖赏的问题领域,另一方面则可求解规模较大、需要动作长链支持的多步学习问题。实验显示,在多步学习问题中,该系统可给出满意解,且在维持动作长链,以及克服过泛化问题方面,具有更优的特性。相似文献

13.

强化学习研究综述 总被引：10，自引：2，他引：8

陈学松杨宜民a 《计算机应用研究》2010,27(8):2834-2838

在未知环境中,关于agent的学习行为是一个既充满挑战又有趣的问题,强化学习通过试探与环境交互获得策略的改进,其学习和在线学习的特点使其成为机器学习研究的一个重要分支。介绍了强化学习在理论、算法和应用研究三个方面最新的研究成果,首先介绍了强化学习的环境模型和其基本要素;其次介绍了强化学习算法的收敛性和泛化有关的理论研究问题;然后结合最近几年的研究成果,综述了折扣型回报指标和平均回报指标强化学习算法;最后列举了强化学习在非线性控制、机器人控制、人工智能问题求解、多agent 系统问题等若干领域的成功应用和未来的发展方向。相似文献

14.

Average Reward Reinforcement Learning: Foundations,Algorithms, and Empirical Results 总被引：12，自引：0，他引：12

Mahadevan Sridhar 《Machine Learning》1996,22(1-3):159-195

This paper presents a detailed study of average reward reinforcement learning, an undiscounted optimality framework that is more appropriate for cyclical tasks than the much better studied discounted framework. A wide spectrum of average reward algorithms are described, ranging from synchronous dynamic programming methods to several (provably convergent) asynchronous algorithms from optimal control and learning automata. A general sensitive discount optimality metric calledn-discount-optimality is introduced, and used to compare the various algorithms. The overview identifies a key similarity across several asynchronous algorithms that is crucial to their convergence, namely independent estimation of the average reward and the relative values. The overview also uncovers a surprising limitation shared by the different algorithms while several algorithms can provably generategain-optimal policies that maximize average reward, none of them can reliably filter these to producebias-optimal (orT-optimal) policies that also maximize the finite reward to absorbing goal states. This paper also presents a detailed empirical study of R-learning, an average reward reinforcement learning method, using two empirical testbeds: a stochastic grid world domain and a simulated robot environment. A detailed sensitivity analysis of R-learning is carried out to test its dependence on learning rates and exploration levels. The results suggest that R-learning is quite sensitive to exploration strategies and can fall into sub-optimal limit cycles. The performance of R-learning is also compared with that of Q-learning, the best studied discounted RL method. Here, the results suggest that R-learning can be fine-tuned to give better performance than Q-learning in both domains. 相似文献

15.

深度强化学习中稀疏奖励问题研究综述 总被引：1，自引：0，他引：1

杨惟轶白辰甲蔡超赵英男刘鹏《计算机科学》2020,47(3):182-191

强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能力,可以应用于机器人控制等复杂决策问题。稀疏奖励问题是深度强化学习在解决任务中面临的核心问题,在实际应用中广泛存在。解决稀疏奖励问题有利于提升样本的利用效率,提高最优策略的水平,推动深度强化学习在实际任务中的广泛应用。文中首先对深度强化学习的核心算法进行阐述;然后介绍稀疏奖励问题的5种解决方案,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等;最后对相关研究工作进行总结和展望。相似文献

16.

一种基于自生成样本学习的奖赏塑形方法

钱煜俞扬周志华《软件学报》2013,24(11):2667-2675

强化学习通过从以往的决策反馈中学习,使Agent 做出正确的短期决策,以最大化其获得的累积奖赏值.以往研究发现,奖赏塑形方法通过提供简单、易学的奖赏替代函数(即奖赏塑性函数)来替换真实的环境奖赏,能够有效地提高强化学习性能.然而奖赏塑形函数通常是在领域知识或者最优策略示例的基础上建立的,均需要专家参与,代价高昂.研究是否可以在强化学习过程中自动地学习有效的奖赏塑形函数.通常,强化学习算法在学习过程中会采集大量样本.这些样本虽然有很多是失败的尝试,但对构造奖赏塑形函数可能提供有用信息.提出了针对奖赏塑形的新型最优策略不变条件,并在此基础上提出了RFPotential 方法,从自生成样本中学习奖赏塑形.在多个强化学习算法和问题上进行了实验,其结果表明,该方法可以加速强化学习过程. 相似文献

17.

深度逆向强化学习研究综述

下载免费PDF全文

陈希亮曹雷何明李晨溪徐志雄《计算机工程与应用》2018,54(5):24-35

深度逆向强化学习是机器学习领域的一个新的研究热点,它针对深度强化学习的回报函数难以获取问题,提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法;接着阐述了经典的逆向强化学习算法,包括基于学徒学习、最大边际规划、结构化分类和概率模型形式化的方法;然后对深度逆向强化学习的一些前沿方向进行了综述,包括基于最大边际法的深度逆向强化学习、基于深度Q网络的深度逆向强化学习和基于最大熵模型的深度逆向强化学习和示例轨迹非专家情况下的逆向强化学习方法等。最后总结了深度逆向强化学习在算法、理论和应用方面存在的问题和发展方向。相似文献

18.

面向动态三维迷宫的综合奖励设计

下载免费PDF全文

焦昌成《计算机应用研究》2024,41(6)

动态三维迷宫是较为困难的、具有不确定性和不完全信息的强化学习任务环境,使用常规奖励函数在此环境中训练任务,速度缓慢甚至可能无法完成。为解决利用强化学习在动态迷宫中寻找多目标的问题,提出一种基于事件触发的综合奖励方案,该方案将三维迷宫中各种行为状态表达为各种事件,再由事件驱动奖励。奖励分为环境奖励和内部奖励,其中环境奖励与三维迷宫任务直接相关,含有体现任务目标的节点奖励和任务约束的约束奖励。内部奖励与智能体学习过程中的状态感受相关,含有判断奖励和心情奖励。在实验中,综合奖励的性能均值相较于改进奖励提升54.66%,结果表明,综合奖励方案在提高完成任务满意度、增强探索能力、提升训练效率方面具有优势。相似文献

19.

改进深度强化学习的室内移动机器人路径规划

下载免费PDF全文

成怡郝密密《计算机工程与应用》2021,57(21):256-262

为了解决传统深度强化学习在室内未知环境下移动机器人路径规划中存在探索能力差和环境状态空间奖励稀疏的问题,提出了一种基于深度图像信息的改进深度强化学习算法。利用Kinect视觉传感器直接获取的深度图像信息和目标位置信息作为网络的输入,以机器人的线速度和角速度作为下一步动作指令的输出。设计了改进的奖惩函数,提高了算法的奖励值,优化了状态空间,在一定程度上缓解了奖励稀疏的问题。仿真结果表明,改进算法提高了机器人的探索能力,优化了路径轨迹,使机器人有效地避开了障碍物,规划出更短的路径,简单环境下比DQN算法的平均路径长度缩短了21.4%,复杂环境下平均路径长度缩短了11.3%。相似文献

20.

多智能体学习中基于知识的强化函数设计方法 总被引：1，自引：0，他引：1

范波潘泉张洪才《计算机工程与应用》2005,41(3):77-79

强化函数的设计是构建多智能体学习系统的一个难点。提出了一种基于知识的强化函数设计方法,根据实际应用的特点,将经验信息和先验知识引入到强化函数中,提高了强化学习的性能。通过在RobotSoccer中的应用和实验,基于知识的强化函数的学习效果要优于传统的强化函数。相似文献