首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 765 毫秒
1.
提出了一种基于矩阵加权关联规则的空间粒度聚类算法。该算法核心思想是根据文档特征向量矩阵提取文档的相似度,再在该关联规则算法上进行聚类来寻找相似关系的频繁项集。在粒度空间中采用相似度阀值进行调整粒度的粗细问题。通过矩阵加权关联规则算法进行聚类。通过实验表明,在处理中小型文档时,该算法的精确度优于传统Apriori算法和K—mean算法;在处理大型文档时.该算法的时间复杂度小于传统的K—mean算法。  相似文献   

2.
提出一种基于矩阵加权关联规则的空间粒度聚类算法。该算法核心思想是根据文档特征向量矩阵提取文档的相似度,再在该关联规则算法上进行聚类来寻找相似关系的频繁项集。通过引入核函数,样本点被非线性变换映射到高维特征空间进行聚类,提高聚类性能。通过矩阵加权关联规则算法进行聚类。通过实验表明,在处理中小型文档时,该算法的精确度优于传统Apriori算法和K-mean算法;在处理大型文档时,该算法的时间复杂度小于传统的K-mean算法。  相似文献   

3.
王刚  钟国祥 《计算机科学》2010,37(9):222-224
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类缺少涉及概念的内涵及概念间的联系,提出了一种基于本体相似度计算的文本聚类算法TCBO(Text Clustering Based on Ontology).该算法把文档用本体来刻画,以便描述概念的内涵及概念间的联系.设计和改进了文本相似度计算算法,应用本体的语义相似度来度量文档间相近程度,设计了具体的根据相似度进行文本聚类的算法.实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量.  相似文献   

4.
因中文短文本特征词词频低、存在大量变形词和新词的特点,使得中文短文本相似度发生漂移,难以直接使用现有的面向长文本的聚类算法。针对短文本相似度漂移问题,提出了一种基于《知网》扩充相关词集构建动态文本向量的方法,利用动态向量计算中文短文本的内容相似度,进而发现短文本之间的内在关联,从而缓解特征词词频过低和存在变形词以及新词对聚类的影响,获得较好的聚类结果。实验结果表明,该算法的聚类质量高于传统算法。  相似文献   

5.
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。  相似文献   

6.
词共现文本主题聚类算法   总被引:1,自引:0,他引:1  
文本主题是文本聚类的关键,而文档中共现词对对文档主题的表现力非常强.因此,在对现有文本主题挖掘和共现词对抽取算法深入研究的基础上,提出了一种基于关联规则词共现的文本主题聚类算法(TCABARWC),即首先采用关联规则挖掘算法抽取文档共现词对,利用词共现提取文本主题信息,然后根据共现词对建模并实现共现词对相似度量,最后结合层次聚类算法实现文本聚类.实验结果表明,相比其他聚类算法,基于关联规则共现词对的层次聚类算法,大大降低了文本向量的维度以及算法复杂度,在聚类效率和准确性上都有显著提高,并获得了较好的聚类效果.  相似文献   

7.
针对标题文本聚类中的聚类结果不稳定问题,提出一种基于聚类融合的标题文本聚类方法。该方法对标题文本的特征词进行筛选,将标题文本转化为特征词集合;提出基于统计和语义的相似度计算方法,计算特征词集合间的相似度;引入基于共协矩阵的聚类融合算法,得出聚类结果。实验结果表明,和传统聚类算法相比,该方法提升了标题文本聚类的稳定性。  相似文献   

8.
文中研究的是文档聚类的方法,即将给定文档集合中的文档进行分类,以达到准确聚类的目的.提出了一种将模糊C均值(FCM)和改进的LSA(Latent Semantic Analysis)相结合进行文档聚类的方法.采用改进的词语特征提取方法构建词-文档矩阵,对该词-文档矩阵进行奇异值分解,从传统的VSM向量空间中提取文本的潜在语义空间,进而将高维的文档向量映射为低维空间的语义向量,文档之间相似度的计算采用文档语义向量的余弦表示.然后采用模糊C均值根据上述计算文档相似度的结果对文档进行聚类.针对校园论坛中的文档数据进行聚类,该方法降低了处理的复杂度同时提高了相似度计算的准确性.实验结果表明该方法对目标文档的聚类有较好的效果,聚类准确性较高.  相似文献   

9.
针对传统的空间向量模型在进行文本表示时计算相似度仅采用词频统计来表示文本以及对高维文本数据聚类效果有所下降等问题,提出一种基于优化密度的耦合空间LDA文本聚类算法。该算法利用提出的耦合空间模型和LDA主题模型线性融合计算文本相似度,并对阈值敏感问题进行优化,确定不同密度区域对应的阈值半径。实验结果表明,与改进的DBSCAN文本聚类算法和R-DBSCAN文本聚类算法相比,本文算法的文本聚类精度更高、聚类效果更优。  相似文献   

10.
一个基于关联规则的多层文档聚类算法   总被引:3,自引:0,他引:3  
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。  相似文献   

11.
通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验,实验结果表明,提出的文本相似度计算方法,在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。  相似文献   

12.
为优化文本聚类效果,提出一种基于单词超团理论的文本聚类方法.利用文档中单词的关联模式来评估文档间的相似度,将单词超团作为文档向量辅助信息,以图划分的方式进行聚类分析.对不同聚类方法的结果进行比较,证明基于单词超团的文本聚类方法能提高文本聚类的准确性.  相似文献   

13.
社交媒体的广泛使用使短文本聚类成为一个重要的研究课题。但短文本词向量的高维、稀疏性限制了传统文本聚类方法在短文本中的效果,并且由于词的稀疏性,词对簇结构的判别能力对短文本类结构的学习显得尤为重要。本文我们提出了一种基于概率模型的具有词判别力学习能力的短文本聚类框架,并在经典文本聚类模型LDA(Ldatant Drichilet Allocation)、BTM(Biterm Topic Model)和GSDMM(Gibbs Sampling Drichilet Mutitional Mixture model)模型中验证了词判别力学习对类结构学习的有效性。通过Gibbs采样算法对模型中的参数进行求解。最后在真实数据集上的实验结果显示具有词判别力学习的概率模型可以提高已有模型的聚类效果。  相似文献   

14.
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集的最大频繁词集获取初始聚类中心,有效克服了K-means聚类算法对初始聚类中心敏感的缺点,解决了簇的理解性问题;通过结合TF-IDF值的语义相似度计算文档之间的相似度,避免了高维空间的运算。实验结果表明,从语义角度出发实现的短文本聚类算法优于传统的短文本聚类算法。  相似文献   

15.
位置加权文本聚类算法   总被引:2,自引:2,他引:0  
文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量,采用层次聚类和K-means文本聚类相结合的改进算法实现文本聚类。实验结果表明,提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度,在稳定性和纯度上都有显著提高,获得了较好的聚类效果。  相似文献   

16.
孙昭颖  刘功申 《计算机科学》2018,45(Z6):392-395
词汇个数少、描述信息弱的缺陷,导致短文本具有维度高、特征稀疏和噪声干扰等特点。现有的众多聚类算法在对大规模短文本进行聚类时,存在精度较低和效率低下的问题。针对该问题,提出一种基于深度学习卷积神经网络的短文本聚类算法。所提算法以大规模语料为基础,利用word2vec 模型学习短文本中词语之间潜在的语义关联,用多维向量表示单个词语,进而将短文本也表示成多维的原始向量形式;结合深度学习卷积神经网络,对稀疏高维的原始向量进行特征提取,以此得到特征更为集中、有效的低维文本向量;最后,利用传统的聚类算法对短文本进行聚类。实验结果表明,所提聚类方法对文本向量的降维是可行、有效的,并且取得了F值达到75%以上的文本聚类效果。  相似文献   

17.
结合关联规则的元搜索引擎结果聚类改进   总被引:2,自引:1,他引:1       下载免费PDF全文
将目的搜索引擎返回的结果经分词处理并提取主要关键词后,采用关联规则建立关联词矩阵,并利用FCM(Fuzzy C-Means,模糊C均值聚类)对结果进行聚类,且通过聚类有效性函数FPU,c)判断最佳聚类结果,最终按照相关度大小顺序将结果返回。通过与K-means(K均值聚类)算法的实验对比发现,以上方法能有效地保证运行效率与聚类个数的有效性,且提高了相关结果的排序位置,因此更能满足用户的需求。  相似文献   

18.
传统K-means算法对初始聚类中心选择较敏感, 结果有可能收敛于一般次优解, 为些提出一种结合双粒子群和K-means的混合文本聚类算法。设计了自调整惯性权值策略, 根据最优适应度值的变化率动态调整惯性权值。两子群分别采用基于不同惯性权值策略的粒子群算法进化, 子代间及子代与父代信息交流, 共享最优粒子, 替换最劣粒子, 完成进化, 该算法命名为双粒子群算法。将能平衡全局与局部搜索能力的双粒子群算法与高效的K-means算法结合, 每个粒子是一组聚类中心, 类内离散度之和的倒数是适应度函数, 用K-means算法优化新生粒子, 即为结合双粒子群和K-means的混合文本聚类算法。实验结果表明, 该算法相对于K-means、PSO等文本聚类算法具有更强鲁棒性, 聚类效果也有明显的改善。  相似文献   

19.
提出了一种基于极大熵理论的球面K均值文本聚类算法ME-SPKM。该算法利用了传统文本聚类算法SPKmeans中使用的余弦相似度度量,进而引入极大熵理论构造了适合文本聚类的极大熵目标函数。对文本数据的实验证明了极大熵球面K均值文本聚类算法取得了比传统文本聚类算法更好的聚类效果。  相似文献   

20.
张万山  肖瑶  梁俊杰  余敦辉 《计算机应用》2014,34(11):3144-3146
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号