SAT-TC:基于关联的层次文档聚类 |
| |
引用本文: | 李曲,龙昊.SAT-TC:基于关联的层次文档聚类[J].计算机科学,2004,31(7):178-180. |
| |
作者姓名: | 李曲 龙昊 |
| |
作者单位: | 华中科技大学计算机科学与技术系,武汉,430074 |
| |
摘 要: | 在一篇文档中,一个单词可以看作是一个项目,一组单词就是一个项目集。在以往的基于关联的文本聚类方法中.都是将一整篇文档看作是一个事务来挖掘频繁项目集和关联规则的。但是实际上,一篇文档中的基本语义单位是句子。在同一个句子中同时出现的一组词在语义上或多或少都是相互关联的,与分布在多个句子中的同一组词相比,前者要有意义得多。因此,基于以上发现,我们考虑将文档中的每一个句子看作是一个事务,一篇文档就被看作是一个事务的集合,并由此提出了一种新的文本聚类方法:SAT-TC。通过在标准测试集上的实验证明.SAT-TC要优于传统的文本聚类算法。
|
关 键 词: | SAT-TC 关联 层次文档聚类 频繁项目集 句子关联事务 聚簇 |
Hierarchical Document Clustering Based on SAT Model |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 维普 万方数据 等数据库收录! |
|
点击此处可从《计算机科学》下载全文 |
|