首页 | 本学科首页   官方微博 | 高级检索  
     

基于短语的中文标签自动生成混合算法
摘    要:对中文文档标签生成的算法进行了研究,提出了一种中文文档标签生成的混合算法(Hybrid Tags Generation Algorithm)。鉴于短语在表达文档主题方面的优势,先进行短语模式匹配,然后利用短语的统计特性,综合考虑TF-IDF、词跨度和位置3个特征进行权重计算,从而抽取出权重较高的词语或短语作为标签。通过对实验数据的分析表明,该算法在查准率方面表现较好。通过人工比对可知,标签表达文档内容主题的效果相当或优于测试集标准答案的比率超过六成,取得了比较好的结果。

关 键 词:关键词抽取  标签生成  短语  中文标签  算法
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号