Q-learning算法及其在囚徒困境问题中的实现 Q-learning Algorithm and Its Usage in Prisoner's Dilemma期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

Q-learning算法及其在囚徒困境问题中的实现

引用本文：	张春阳,陈小平,刘贵全,蔡庆生. Q-learning算法及其在囚徒困境问题中的实现[J]. 计算机工程与应用, 2001, 37(13): 121-122,128

作者姓名：	张春阳陈小平刘贵全蔡庆生

作者单位：	中国科学技术大学计算机系

基金项目：	国家自然科学基金的支持（编号：69875017）

摘要：	Ｑ－ｌｅａｒｎｉｎｇ是一种优良的强化学习算法。该文首先阐述了Ｑ－ｌｅａｒｎｉｎｇ的基本学习机制，然后以囚徒困境问题为背景，分析、对比ＴＱ－ｌｅａｒｎｉｎｇ算法与ＴＦＴ算法，验证了Ｑ－ｌｅａｒｎｉｎｇ算法的优良特性。
关键词：	机器学习强化学习 Q-learning算法 Agent 囚徒困境问题针锋相对算法
文章编号：	1002-8331-(2001)13-0121-02
Q-learning Algorithm and Its Usage in Prisoner's Dilemma

Zhang Chunyang Chen Xiaoping Liu Guiquan Cai Qingsheng. Q-learning Algorithm and Its Usage in Prisoner's Dilemma[J]. Computer Engineering and Applications, 2001, 37(13): 121-122,128

Authors:	Zhang Chunyang Chen Xiaoping Liu Guiquan Cai Qingsheng

Abstract:	Q-learning is an algorithm of Reinforcement learning algorithm.In this paper,We elaborate the learning method of Q-learning algorithm simply,use it in prisoner's dilemma game and compare it with TFT to show its good character.

Keywords:	Machine Learning Reinforcement learning Q-learning algorithm Agent prisoner's dilemma TFT algorithm
本文献已被 CNKI 维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏