首页 | 本学科首页   官方微博 | 高级检索  
     

基于领域特征词加权的文本相似度计算
引用本文:欧阳宁,罗艳.基于领域特征词加权的文本相似度计算[J].计算机工程与设计,2012,33(11):4338-4342.
作者姓名:欧阳宁  罗艳
作者单位:桂林电子科技大学研究生学院,广西桂林,541004
基金项目:广西自然科学基金项目,广西科学研究与技术开发计划基金项目
摘    要:为了改善一个词可能在多个类别中有较大的互信息而模糊了词的类别信息的问题,提出了一种改进的特征选择方法。该方法利用特征词在不同类别之间的表征差异建立领域特征词(即最能表现一个领域的信息的一系列词)从而可以对用互信息建立的特征集进行再次选择,这样既减少了特征的维数又使特征表示更有效。同时,还设计了一个文本相似度计算系统,系统中改进了传统的tf-idf。实验结果表明,改进的特征选择方法和设计的系统具有良好的性能效果。

关 键 词:互信息  文本分类  特征选择  领域特征词  文本相似度

Text similarity calculation based on weighting domain feature word
OUYANG Ning , LUO Yan.Text similarity calculation based on weighting domain feature word[J].Computer Engineering and Design,2012,33(11):4338-4342.
Authors:OUYANG Ning  LUO Yan
Affiliation:(School of Information and Communication,Guilin University of Electronic Technology,Guilin 541004,China)
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号