首页 | 本学科首页   官方微博 | 高级检索  
     

结合词语分布信息的TFIDF关键词抽取方法研究
引用本文:徐振强,李保利.结合词语分布信息的TFIDF关键词抽取方法研究[J].中原工学院学报,2014(6):59-63.
作者姓名:徐振强  李保利
作者单位:河南工业大学信息科学与工程学院;数字出版技术国家重点实验室
基金项目:CCF-数字出版技术国家重点实验室开放基金资助项目(CCF2012-02-02);河南省基础与前沿技术研究项目(112300410007);河南工业大学高层次人才基金资助项目(2012BS027)
摘    要:介绍了关键词抽取的相关工作,并对基于TFIDF的关键词抽取算法进行了分析。结合词语在文本中的分布均衡程度和首次出现位置等特征,提出了一种改进的TFIDF算法,并给出了相应的计算公式。在文档数量和文档平均长度不同的3个语料上进行了对比实验。实验结果表明,结合词语分布信息的TFIDF关键词抽取方法是可行和有效的。

关 键 词:抽取  TFIDF  词语分布  自动标引

Considering Word Distribution Information in TFIDF-based Keyword Extraction Method
XU Zhen-qiang;LI Bao-li.Considering Word Distribution Information in TFIDF-based Keyword Extraction Method[J].Journal of Zhongyuan Institute of Technology,2014(6):59-63.
Authors:XU Zhen-qiang;LI Bao-li
Affiliation:XU Zhen-qiang;LI Bao-li;College of Information Science and Engineering,Henan University of Technology;State Key Laboratory of Digital Publishing Technology;
Abstract:This paper introduces the related work of keyword extraction,and analyzes the traditional TFIDF based keyword extraction algorithm.A revised TFIDF based algorithm is then proposed to capture the information of a candidate keyword's distribution among the text and its first appearance position in the text,and all the modified formula are provided in the paper.Extensive experiments on three datasets of different size and different average document length demonstrate that the revised TFIDF based keyword extraction algorithm,which incorporates word distribution information,is feasible and effective.
Keywords:extraction  TFIDF  word distribution  automatic indexing
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号