基于《知网》和遗传算法的中文文本聚类特征选择 |
| |
引用本文: | 胡玉娴.基于《知网》和遗传算法的中文文本聚类特征选择[J].中国电子商情,2009(2). |
| |
作者姓名: | 胡玉娴 |
| |
作者单位: | 北京航空航天大学经济管理学院,北京100191 |
| |
摘 要: | 特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大。遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化。另外,本文提出基于《知网》特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维。实验结果表明,基于《知网》和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定。
|
关 键 词: | 中文文本聚类 特征选择 《知网》 遗传算法 |
本文献已被 维普 等数据库收录! |
|