排序方式: 共有34条查询结果,搜索用时 46 毫秒
1.
利用双线性对构造了一个新的基于身份的电子现金支付方案.引入一种基于身份的公钥机制,实现了一个基于身份的盲签名(IDBS)机制,进而实现了用户现金的匿名性和不可追踪性等.该方案具有最少的对运算,安全高效. 相似文献
2.
足迹图像作为犯罪现场的重要痕迹物证之一,在破解串并案上有着不可忽视的作用.传统的足迹图像检索与匹配,需要耗费大量的时间与人力,极大地影响了破案进展.卷积神经网络(CNN)在图像识别与检索上表现出很好的效果.面向公安足迹图像比对实战需求,提出了一种基于卷积神经网络的足迹图像检索与匹配方法,对检索结果设置不同检索区,可以满足不同业务需求.初步实验表明该方法的有效性和实用性. 相似文献
3.
4.
5.
本文提出一种可用于建筑能耗预测的基于KNN分类器的DQN算法——K-DQN. 其在利用马尔科夫决策过程对建筑能耗进行建模时, 针对大规模动作空间问题, 将原始动作空间缩减进而提高算法的预测精度及收敛速率. 首先, K-DQN将原始动作空间平均划分为多个子动作空间, 并将每个子动作空间对应的状态分为一类, 以此构建KNN分类器. 其次, 利用KNN分类器, 将不同类别相同次序动作进行统一表示, 以实现动作空间的缩减. 最后, K-DQN将状态类别概率与原始状态相结合, 在构建新状态的同时, 帮助确定缩减动作空间内每一动作的具体含义, 从而确保算法的收敛性. 实验结果表明, 文章提出的K-DQN算法可以获得优于DDPG、DQN算法的能耗预测精度, 且降低了网络训练时间. 相似文献
6.
针对强化学习方法训练能耗控制系统时所存在奖赏稀疏的问题,将一种基于自监督网络的深度确定策略梯度(deep deterministic policy gradient,DDPG)方法应用到建筑能耗控制问题中.首先,处理状态和动作变量作为自监督网络前向模型的输入,预测下一个状态特征向量,同时将预测误差作为好奇心设计内部奖赏,以解决奖赏稀疏问题.然后,采用数据驱动的方法训练建筑能耗模型,构建天气数据作为输入、能耗数据作为输出.最后,利用基于自监督网络的DDPG方法求解最优控制策略,并以此设定空气处理装置(air handling unit,AHU)的最优排放温度,减少设备能耗.实验结果表明,该方法能够在保持建筑环境舒适的基础上,实现较好的节能效果. 相似文献
7.
提出一种基于强化学习的生成对抗网络(Reinforcement learning-based Generative Adversarial Networks,Re-GAN)能耗预测方法.该算法将强化学习与生成对抗网络相结合,将GAN(Generative Adversarial Nets)中的生成器以及判别器分别构建为强化学习中Agent(生成器)以及奖赏函数.在训练过程中,将当前的真实能耗序列作为Agent的输入状态,构建一组固定长度的生成序列,结合判别器及蒙特卡洛搜索方法进一步构建当前序列的奖赏函数,并以此作为真实样本序列后续第一个能耗值的奖赏.在此基础之上,构建关于奖赏的目标函数,并求解最优参数.最后使用所提算法对唐宁街综合大楼公开的建筑能耗数据进行预测试验,实验结果表明,所提算法比多层感知机、门控循环神经网络和卷积神经网络具有更高的预测精度. 相似文献
8.
针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法.利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的.将所提算法与REIRL算法应用于经典的Gridworld和Obj ect World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数. 相似文献
9.
针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到更加精确的梯度方向,以此来解决了由近似梯度估计误差引发的问题,加快了算法的收敛速度。将SVR-DDPG算法以及DDPG算法应用于Pendulum和Mountain Car问题,实验结果表明,SVR-DDPG算法具有比原算法更快的收敛速度,更好的稳定性,以此证明了算法的有效性。 相似文献
10.
针对深度确定性策略梯度算法中双网络结构的不稳定及单评论家评估不准确的问题,提出基于多重指数移动平均评估的DDPG算法.介绍EM A-Q网络和目标Q网络合作得出目标更新值,对多个评论家给出的Q值求平均,降低单评论家评估的不准确性.样本池部分引入双重经验回放方法,采用两个样本池分别存储不同的经验,提高算法的收敛性能.将所提算法及原始DDPG算法分别实验于经典的Pendulum问题和Mountain Car问题中.实验结果表明,与传统的DDPG算法相比,所提算法准确性更好,稳定性更高,收敛速度明显提升. 相似文献