首页 | 本学科首页   官方微博 | 高级检索  
     

基于树型结构和加权熵的中文高频词提取算法
引用本文:王龙,刘衍珩,李晓光,官健.基于树型结构和加权熵的中文高频词提取算法[J].吉林大学学报(工学版),2011,41(1):188-0192.
作者姓名:王龙  刘衍珩  李晓光  官健
作者单位:1. 吉林大学计算机科学与技术学院,长春130012;辽宁大学信息学院,沈阳110036
2. 吉林大学计算机科学与技术学院,长春,130012
3. 辽宁大学信息学院,沈阳,110036
基金项目:国家自然科学基金项目(60973136, 60703068);中国高等学校博士学科点专项科研基金项目(20060183043)
摘    要:提出了一种基于树型结构和加权熵的中文高频词提取算法.简单介绍了中文的树型结构和加权信息熵,详细叙述了算法的原理和设计步骤,并给出了具体的算法描述.实验结果表明,该算法是可行和有效的.

关 键 词:计算机应用  中文高频词  提取算法  加权熵  前缀树  后缀树
收稿时间:2009-06-30

Chinese high-frequency word extraction algorithm based on tree structure and weighted entropy
WANG Long,LIU Yan-heng,LI Xiao-guang,GUAN Jian.Chinese high-frequency word extraction algorithm based on tree structure and weighted entropy[J].Journal of Jilin University:Eng and Technol Ed,2011,41(1):188-0192.
Authors:WANG Long  LIU Yan-heng  LI Xiao-guang  GUAN Jian
Affiliation:WANG Long1,2,LIU Yan-heng1,LI Xiao-guang2,GUAN Jian1 (1.College of Computer Science and Technology,Jilin University,Changchun 130012,China,2.College of Information,Liaoning University,Shenyang 110036,China)
Abstract:A Chinese high-frequency word extraction algorithm was proposed based on the tree structure and the weighted entropy. The tree structure and the weighted information entropy were introduced briefly. The principle of the algorithm and its design steps were described in detail. The experimental results show that the proposed algorithm is feasible and effective.
Keywords:computer application  Chinese high-frequency word  extraction algorithm  weighted entropy  prefix tree  suffix tree  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《吉林大学学报(工学版)》浏览原始摘要信息
点击此处可从《吉林大学学报(工学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号