基于领域特征词加权的文本相似度计算 Text similarity calculation based on weighting domain feature word期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于领域特征词加权的文本相似度计算

引用本文：	欧阳宁,罗艳.基于领域特征词加权的文本相似度计算[J].计算机工程与设计,2012,33(11):4338-4342.

作者姓名：	欧阳宁罗艳

作者单位：	桂林电子科技大学研究生学院,广西桂林,541004

基金项目：	广西自然科学基金项目，广西科学研究与技术开发计划基金项目

摘要：	为了改善一个词可能在多个类别中有较大的互信息而模糊了词的类别信息的问题,提出了一种改进的特征选择方法。该方法利用特征词在不同类别之间的表征差异建立领域特征词(即最能表现一个领域的信息的一系列词)从而可以对用互信息建立的特征集进行再次选择,这样既减少了特征的维数又使特征表示更有效。同时,还设计了一个文本相似度计算系统,系统中改进了传统的tf-idf。实验结果表明,改进的特征选择方法和设计的系统具有良好的性能效果。
关键词：	互信息文本分类特征选择领域特征词文本相似度
Text similarity calculation based on weighting domain feature word

OUYANG Ning , LUO Yan.Text similarity calculation based on weighting domain feature word[J].Computer Engineering and Design,2012,33(11):4338-4342.

Authors:	OUYANG Ning LUO Yan

Affiliation:	(School of Information and Communication,Guilin University of Electronic Technology,Guilin 541004,China)

Abstract:

Keywords:
本文献已被 CNKI 万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏