文本聚类中权重计算的对偶性策略 |
| |
作者姓名: | 卜东波 白硕 李国杰 |
| |
作者单位: | 中国科学院,计算技术研究所,北京,100080 |
| |
基金项目: | 国家自然科学基金资助项目(69773008 |
| |
摘 要: | 在文本聚类/分类处理中,一个重要步骤就是寻找文本的合理表示.在被广泛采用的向量空间模型中,一个文本被表示成一个向量,向量的各维是特征项,而向量空间模型的核心问题就是如何进行特征的抽取和选择.在特征的权重计算中,存在一种对偶性现象.利用迭代的方法来处理和利用这种对偶性,获得了文本的隐含概念.实验结果表明,采用概念空间代替原始词空间来表示文本,能够得到更好的聚类结果.
|
关 键 词: | 文本聚类 向量空间模型 特征抽取 对偶性 隐含概念空间 |
文章编号: | 1000-9825/2002/13(11)2083-07 |
收稿时间: | 2001-04-13 |
修稿时间: | 2001-04-13 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
| 点击此处可从《软件学报》浏览原始摘要信息 |
|
点击此处可从《软件学报》下载免费的PDF全文 |
|