首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对基于核的多视图聚类算法(kernel based multi-view clustering method, MVKKM)在处理大规模数据集时运行时间长的缺点,引入增量聚类模型的概念,将MVKKM算法与增量聚类模型相结合,提出基于核K-means的多视图增量聚类算法(incremental multi-view clustering algorithm based on kernel K-means, IMVCKM)。通过将数据集分块,在每个数据块中使用MVKKM算法聚类,并将每个数据块的聚类中心作为下个数据块的初始聚类中心。将所有块的聚类中心进行整合后再次进行多视图聚类,得到最终的聚类结果。试验结果表明,在3个大规模数据集上,IMVCKM算法相较于MVKKM算法在3个评价指标上具有更好的聚类结果,且运行时间更短。该算法在保证聚类性能的基础上大大降低算法的运行时间。  相似文献   

2.
多视图模糊聚类综合了数据的不同表示,虽然能够产生更全面、宏观的聚类结果,但是容易受到噪声干扰。为了提高抵抗噪声的能力,提出了一种多视图模糊聚类算法。该算法同时继承了多视图聚类和模糊紧致性分离性聚类算法的优点,能够根据不同视图的重要性协同聚类,同时增强算法的鲁棒性。为了验证算法的有效性,选取4个多视图数据集进行了实验。实验结果表明,该算法不仅能够获得较高的聚类准确率,而且能有效地降低噪声数据对聚类结果的影响。  相似文献   

3.
文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。  相似文献   

4.
提出并设计了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和划分聚类的思想,通过一个阈值来控制聚类算法的选取和新簇的建立.从一个小样本的实验结果来看,该算法的召回率和正确率比各种经典的方法更高.  相似文献   

5.
针对数据挖掘中多指标面板数据的聚类分析问题,构建了一种新的对象间距离的定义,并基于传统的k均值聚类方法,将时间维度分割,对每相邻时间段的对象进行聚类.将单次聚类结果汇总形成聚类结果矩阵,根据汇总的结果矩阵计算对象归于某一类的隶属权值,从而确定最终的聚类结果.这样同时考虑对象在空间上和时间上的发展趋势的聚类方法将得到更加全面客观的聚类结果.最后将本聚类方法运用于金融保险行业上市公司财务数据,进行实证分析,指出该方法的有效性.  相似文献   

6.
倾斜角度提取是卡片打印质量检测中的关键问题之一,提出基于聚类的卡片文字倾斜角度检测方法。将卡片图像中的文本像素点看作数据集,利用DBSCAN的聚类方法,将所有像素点按字块分类,用降采样的方法提高算法速度;认为每类中的文本像素点构成一条平行于文本倾斜方向的直线,将同一类别中的文本像素点按列方向求重心,并将重心点看作是对应直线的样本点,利用最小二乘方法拟合直线,所得直线的倾角即为文本的倾斜角度。实验结果表明,该算法的平均误差在0.05度以内,具有较高的精度。  相似文献   

7.
针对模糊C-均值算法(FCM)具有局部最优问题和初值敏感性的缺陷,将微粒群优化算法应用于文本模糊聚类, 提出了基于微粒群优化算法的模糊C-均值算法PFCM.该算法首先采用实数编码方式对聚类原型进行编码,利用微粒群优化算法的全局搜索性能对初始聚类原型的选取进行指导,然后利用模糊C-均值算法进行聚类.使用算法PFCM对文本集合进行聚类实验,并用目标函数值和划分系数来判断模糊划分的效果,实验结果表明,与FCM相比,该算法具有较好的全局收敛性和较好的聚类结果.  相似文献   

8.
一种基于向量空间模型的文本聚类方法   总被引:1,自引:0,他引:1  
研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果表明本文提出的聚类模型是可行的.  相似文献   

9.
针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同  相似文献   

10.
提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明,该方法能快速、较准确的实现中文文本的多主题聚类。  相似文献   

11.
互联网上存在着海量蕴含丰富信息的短文本数据,由于短文本存在特征稀疏、用语不规范的特点,使用传统的聚类算法效果较差。提出了一种使用词向量表示特征并结合关键词提取的短文本聚类算法:定义特征权重计算公式,计算类簇中特征的权重,得到类簇的关键词;使用Skip gram模型训练得到的词向量计算关键词之间的语义相似度进而得到类簇的相似度实现聚类。在4个数据集上进行的实验结果表明文章的方法效果优于传统的聚类算法,宏平均较次优结果分别提高了22.3%、24.9%、2.9%和34.4%。  相似文献   

12.
针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法。该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类。在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚类的准确性,加快了收敛速度,具有较强的鲁棒性。  相似文献   

13.
基于DXF文件的工程图中多视图的视图分离方法   总被引:1,自引:0,他引:1  
提出了一种基于DXF文件的面向三维重建的多视图的视图分离方法.该方法结合DXF文件的结构,分析视图分离中用到的图元数据结构,通过建立图元链表以及设置遍历标志位,提高了寻找各视图的最小外接矩形的效率,实现了多视图的分离,并在此基础上实现了视图关系确定、投影原点的确立以及坐标系的转换,为后续的三维重建工作提供了有效的数据信息.  相似文献   

14.
15.
针对传统的基于决策树的支持向量机多类分类算法运算过程复杂、分类效率低的缺点,提出一种新的基于聚类思想的支持向量机分类方法.空间距离和聚类思想的引入,有效的提高了算法的分类效率.仿真试验表明,该方法在保持算法良好推广性的同时降低了算法的复杂度,从而提高了分类效率和分类速度.  相似文献   

16.
为了提高文本聚类的有效性,提出一种基于网络社团结构的文本聚类算法。基于语义知识库理论,利用文本集与词语间的关系,引入文本相似度概念,再结合Newman社团聚类算法特性,将文本集作为独立社团,用文本相似度表示社团联系的紧密程度,对网络文本进行聚类。实验结果表明,该方法有效可行。  相似文献   

17.
通过研究Hadoop平台和MapReduce编程框架,提出了一个基于MapReduce的并行遮盖文本聚类算法.遮盖算法提出了两个距离阈值T1,T2用来构建重叠子集,避免了传统聚类算法对噪声敏感的缺点.同时采用适当的快速近似距离度量,大大加快了聚类速度.实验表明该算法在MapReduce框架下有良好的集群加速性能,适合处理大规模的数据集.  相似文献   

18.
针对学术期刊运行与管理中对审稿专家缺乏准确评价依据的问题,结合评价分析的需求和K-means聚类算法特点,提出了一种基于改进的K-means聚类算法的审稿专家分类评价方法,该方法通过研究初始聚类中心的选择和评价标准的量化、聚类维度的选择和分类值大小的合理选择等问题,较为准确地解决了审稿专家的分类问题。经实例分析验证,该方法得到的结果是合理的,并具有很强的可操作性,为建立科学的审稿专家库和准确高质量地送审提供了科学的依据。  相似文献   

19.
采用传统标签传播算法实现网络聚类时,由于标签初始分配过程随机、节点选择过程随机、且标签更新顺序随机的原因,影响聚类结果。为此,提出一种新的基于改进标签传播算法的网络聚类方法,即用图对网络进行描述,并为网络聚类提供基础。改进标签传播算法过程如下:求出网络中任意两节点拥有最大公共邻居的平均阶数,把相似性最高的节点和邻居节点看作初始核心社团,为其分配初始标签;引入基于随机游走的相似度矩阵,令节点选择和自身相似度最高的节点拥有的标签;通过H指数对标签算法更新顺序进行改进;依据改进后结果,按照标签传播算法网络聚类过程实现聚类。实验结果表明,本文所提的网络聚类方法具有更高的准确性和稳定性。  相似文献   

20.
基于改进模糊均值聚类算法的遥感图像聚类   总被引:1,自引:0,他引:1  
由于传统模糊C均值聚类算法存在缺陷,该文给出了一种结合加权模糊C均值聚类与聚类有效性指数的算法.利用数据点的密度大小作为权值,借助数据本身的分布特性,该方法不仅在一定程度上克服了模糊均值算法的缺陷——有对数据集进行等划分的趋势,而且具有良好的收敛性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号