共查询到18条相似文献,搜索用时 70 毫秒
1.
提出并设计了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和划分聚类的思想,通过一个阈值来控制聚类算法的选取和新簇的建立.从一个小样本的实验结果来看,该算法的召回率和正确率比各种经典的方法更高. 相似文献
2.
通过研究Hadoop平台和MapReduce编程框架,提出了一个基于MapReduce的并行遮盖文本聚类算法.遮盖算法提出了两个距离阈值T1,T2用来构建重叠子集,避免了传统聚类算法对噪声敏感的缺点.同时采用适当的快速近似距离度量,大大加快了聚类速度.实验表明该算法在MapReduce框架下有良好的集群加速性能,适合处理大规模的数据集. 相似文献
3.
针对隐含狄利克雷分布(LDA)模型特征提取时忽略语义信息的问题,提出一种融合LDA和全局文本表示(GloVe)模型的病症文本聚类算法LG&K-Medoide.首先,利用LDA对病症文本数据建模,采用JS(Jensen-Shannon)距离计算文本相似度;其次,利用GloVe对病症文本数据建模获取词向量,根据病症词性贡献... 相似文献
4.
提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了 k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中.实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性. 相似文献
5.
针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。 相似文献
6.
基于形状相似距离的K-means聚类算法 总被引:1,自引:0,他引:1
把向量作为空间中的物体展开相似度的评估,分析了向量间各维差值与形状差异的间的近似关系,提出了基于形状相似距离的K-means算法。在三个UCI(University of California,Irvine)标准数据集上的聚类结果表明,对于有关形状信息的数据,基于形状相似距离的K-means算法比采用传统距离的K-means算法,聚类准确度显著提高。 相似文献
7.
8.
应用模糊C均值算法对文档进行分类,具有不使用语法知识、不使用词法规则、无监督等特点.采用模糊c均值算法对文档进行聚类,实验结果表明:该方法优于普通的聚类算法,聚类结果能充分体现文本的多样性. 相似文献
9.
《信息工程大学学报》2016,17(5)
文本相似度度量对于促进信息处理领域的发展具有重要意义。针对评论文本提出了一种基于树形结构的内容相似性度量方法。该方法利用评论文本的内容组织特征,将其分解为对应树各层之间的相似性度量,从而使得每层相似度的度量对象都为同类型的词语,进而分别采用合适的相似性度量方法,最后再对各层相似度赋予不同的权重,并通过融合树各层的相似度最终得到整体的相似度。在Amazon数据集上的实验结果表明文章方法较之于其它常见度量方法更加有效,准确率更高。 相似文献
10.
针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同 相似文献
11.
文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。 相似文献
12.
本文在SPI测量变形物体三维位相的原理上,选用马赫-泽德干涉系统,提出了用一个干涉图法,实现了散斑干涉图三维位相测试的新方法。用CCD分别接收物体变形前后的散斑图,将两幅散斑图相减得到变形物体的散斑干涉条纹图。应用MAT LAB软件编程对散斑干涉图进行二维FFT运算,获得变形物体的三维位相。由三维位相分布可以判读物体的三维变形,进而为后续分析物体的三维应力奠定基础。实验表明,该方法简单、速度快,一个干涉图法可减少震动对测试结果的影响,精度容易达到λ/10。 相似文献
13.
为减少社区发现算法中参数的选择对社区划分的影响,同时使算法能够自适应地进行社区划分,本文提出一种基于核密度估计的密度峰值聚类的社区发现算法KDED.首先,定义一种基于信任度的距离度量,将社交网络中的用户关系量化为距离矩阵,使用矩阵元素的大小度量用户关系的紧密程度;然后对距离矩阵进行核密度估计,统计各个节点在网络中的影响大小,结合热扩散模型改进计算流程,使其自适应不同规模的数据集以提高计算精度;结合密度峰值聚类原理和社区属性确定社区中心节点后,可根据节点间的距离得到社区内部层次结构和社区外部的自然结构;最后将剩余节点按距离分配到相应的社区当中以完成社区划分.仿真结果表明:通过可视化软件可观察到,通过KDED算法得到的社区划分结果具有清晰的自然结构和内部层次结构;随着社区规模的提升以及划分难度增加,KDED算法具有出色的稳定性;在真实数据集以及LFR基准网络上均得到较为接近真实划分结果的社区划分,自适应性良好,验证算法的可行性与有效性. 相似文献
14.
针对单一聚类算法存在的不能泛化的问题,将集成学习技术应用于聚类算法中,集成学习技术可以显著提高学习系统的泛化能力。提出了1种基于粒子群和遗传算法的协同进化聚类集成算法,粒子群算法保证算法快速收敛,遗传算法全局搜索扩大搜索范围,提高了聚类的性能和收敛速度。将本研究提出的算法在多个UCI数据集上进行试验验证,结果表明该算法是有效的。 相似文献
15.
基于特征加权理论的数据聚类算法 总被引:1,自引:0,他引:1
针对数据挖掘过程中数据聚类操作的初始聚类数目和初始聚类中心确定困难的问题,提出了一种软子空间结合竞争合并机制的模糊加权聚类算法.通过对软子空间聚类算法的目标函数进行改写,并结合数据簇势的大小对各数据簇进行竞争与合并操作,实现了对数据的聚类处理.结果表明,该算法能够准确地对数据样本进行聚类,并且聚类结果与初始数据簇数目和初始聚类中心无关,能够满足对高维数据聚类处理的需要,具有较好的实际应用价值. 相似文献
16.
MCL是一种图聚类算法,针对MCL计算过程会产生小聚类及边缘节点从团中脱离出来的问题,提出了一种基于MCL与KNN相结合的混合聚类算法。该算法利用KNN的分类特点,以MCL聚类得到的聚类表为依据,通过KN N对小聚类中的元素进行再分类,以提高聚类的质量。实验证明此方法是可行的,改进后的算法能使聚类质量有所提高。 相似文献
17.
社群结构探测方法是社群结构研究的主要内容之一.首先总结了社群结构的特点,分析了Newman模块性指标Q的特点及其一般算法框架.然后,针对Newman模块性指标Q的不足,讨论了一种简化的社群结构探测模块性指标及相应算法; 最后利用Ucinet和Pajek软件提供的网络数据进行试验,计算结果说明,基于简化的社群结构探测模块性指标是有效可用的,且模块性指标直接影响社群结构的探测结果. 相似文献
18.
一种基于模糊聚类的快速图像分割算法 总被引:2,自引:0,他引:2
提出一种基于二维直方图加权的模糊c均值图像快速分割算法.通过将原图像和它的平滑图像相结合,构造一个二元组的“广义图像”,广义图像的直方图就是原图像的二维直方图.然后对此二维直方图进行塔形分解得到金字塔的上一层——顶层,相应地称原二维直方图为底层.最后,利用加权模糊c均值聚类算法分别对顶层和底层进行模糊聚类,从而实现对原图像的分割.实验结果与性能分析表明,该算法具有较高的分割速度和良好的抑制噪声的能力. 相似文献