首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 42 毫秒
1.
一种改进的基于密度聚类模糊支持向量机   总被引:2,自引:1,他引:2       下载免费PDF全文
张恒  邹开其  崔杰  张敏 《计算机工程》2009,35(5):194-196
为了提高模糊支持向量机在数据集上的训练效率,提出一种改进的基于密度聚类(DBSCAN)的模糊支持向最机算法。运用DBSCAN算法对原始数据进行预处理,去除对分类贡献小的中心样本,用剩余的边缘样本集合完成模糊支持向量机的训练工作。实验表明,该方法形成的聚类边缘样本较好地保持了原样本的分布情况,在保证分类精度的同时,大大缩短了训练时间,提高了工作效率。  相似文献   

2.
传统的文本聚类往往采用词包模型构建文本向量,忽略了词语间丰富的语义信息。而基于中心划分的聚类算法,容易将概念相关的自然簇强制分开,不能很好地发现人们感兴趣的话题。该文针对传统文本聚类算法的缺点,提出一种基于语义和完全子图的短文本聚类算法,通过对目前主流的三大语义模型进行了实验和对比,选择了一种较为先进的语义模型,基于该语义模型进行了聚类实验,发现新算法能较好地挖掘句子的语义信息且较传统的K-means有更高的聚类纯度。
  相似文献   

3.
结合密度聚类和模糊聚类的特点,提出一种基于密度的模糊代表点聚类算法.首先利用密度对数据点成为候选聚类中心点的可能性进行处理,密度越高的点成为聚类中心点的可能性越大;然后利用模糊方法对聚类中心点进行确定;最后通过合并聚类中心点确定最终的聚类中心.所提出算法具有很好的自适应性,能够处理不同形状的聚类问题,无需提前规定聚类个数,能够自动确定真实存在的聚类中心点,可解释性好.通过结合不同聚类方法的优点,最终实现对数据的有效划分.此外,所提出的算法对于聚类数和初始化、处理不同形状的聚类问题以及应对异常值等方面具有较好的鲁棒性.通过在人工数据集和UCI真实数据集上进行实验,表明所提出算法具有较好的聚类性能和广泛的适用性.  相似文献   

4.
提出的基于相对密度的数据流模糊聚类算法结合了相对密度聚类和模糊聚类的优点,能形成任意形状、多密度分辨率的层次聚类结果.同时,利用微簇空间位置重叠关系,定义了微簇集合间的差运算,从而有效地支持了用户指定时间窗口内的数据流聚类要求.通过与CluStream算法在聚类质量和处理时间两个方面的比较分析,发现基于相对密度的数据流模糊聚类算法具有明显的优势.  相似文献   

5.
霍华  赵刚 《计算机工程》2012,38(13):131-133
针对视觉词袋模型的量化误差与视觉词含糊性,提出一种基于视觉词模糊权重的视频语义标注方案。该方案在训练样本集的预聚类基础上,逐个聚类训练单类支持向量机OC-SVM。根据样本特征与聚类超球球心的距离函数及聚类超球的空间分布确定视觉词映射及权重,以提高视觉词的表达力、区别力。实验结果表明,基于该方案的视频语义标注精度分别比TF方案和VWA方案提高34%和16%。  相似文献   

6.
王靖 《计算机应用研究》2020,37(10):2951-2955,2960
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。  相似文献   

7.
《计算机科学与探索》2016,(11):1614-1622
密度峰聚类是一种新的基于密度的聚类算法,该算法不需要预先指定聚类数目,能够发现非球形簇。针对密度峰聚类算法需要人工确定聚类中心的缺陷,提出了一种自动确定聚类中心的密度峰聚类算法。首先,计算每个数据点的局部密度和该点到具有更高密度数据点的最短距离;其次,根据排序图自动确定聚类中心;最后,将剩下的每个数据点分配到比其密度更高且距其最近的数据点所属的类别,并根据边界密度识别噪声点,得到聚类结果。将新算法与原密度峰算法进行对比,在人工数据集和UCI数据集上的实验表明,新算法不仅能够自动确定聚类中心,而且具有更高的准确率。  相似文献   

8.
基于两阶段聚类的模糊支持向量机   总被引:2,自引:0,他引:2       下载免费PDF全文
为了提高模糊支持向量机在大数据集上的训练效率,提出一种基于两阶段聚类的模糊支持向量机算法。第1阶段为粗粒度聚类阶段,在每类训练样本上执行密度聚类算法,设置较大的邻域半径(给定邻域内最小点数),保证可能成为支持向量的样本点都被选取;第2阶段为自适应聚类阶段,在粗选的数据集合上,执行自适应密度聚类算法,根据各个点距离分类面的远近,自适应决定该点的邻域半径(给定邻域内最小点数)。这样可有效地减少远离分类面的聚类边缘点的数量,同时在分类面附近保持较多的样本点,试验结果表明,基于两阶段聚类模糊支持向量机算法,相比以往的方法,不仅提高了模糊支持向量机的训练效率,同时保持了较好的分类效果。  相似文献   

9.
基于语义密度的文本聚类研究   总被引:3,自引:2,他引:1       下载免费PDF全文
结合文本数据的语义相似度,给出一种基于语义密度文本数据聚类的方法。根据文本数据的特点,从一个随机选定的文本对象出发,向文本数据最为密集的区域扩张,组织成一个能反映语料结构的有序序列进行聚类。在处理噪声文本数据的过程中,利用有效结果重组策略来辅助噪声文本数据重新定位。实验结果表明,该方法具有良好的聚类性能。  相似文献   

10.
针对传统模糊C均值聚类算法和基于K-means++优化聚类中心的模糊C均值算法存在初始聚类中心敏感、聚类速度收敛慢、聚类算法需要人为给定聚类数目等缺陷,受密度峰值聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)的启发,提出了基于密度峰值算法优化的模糊C均值聚类算法,自适应产生初始聚类中心,确定聚类数目,并优化算法收敛过程。实验结果表明,改进后的算法与传统模糊聚类C均值算法相比能够准确地得到簇的数目,性能有明显的提高,并加快算法的收敛速度,达到相对更好的聚类效果。  相似文献   

11.
模糊c均值聚类算法是目前聚类分析中最受欢迎的算法之一,但其聚类效果往往受初始参数的影响.针对这一问题,提出一种基于网格和密度的模糊c均值聚类初始化方法.以网格和密度为工具提取聚类样本的类聚类中心,以此来初始化模糊c均值聚类算法的初始参数,从而弥补原算法的不足.实验证明方法是可行的、有效的.  相似文献   

12.
语义角色标注是自然语言处理的一个重要研究内容,性能对机器翻译等研究有重大影响。实现了一个基于依存关系的中文名词性谓词语义角色标注平台,并对名词性谓词进行识别,使用最大熵分类模型在Chinese NomBank的转换语料上进行系统实验,对各种词法特征、结构特征及其组合进行了测试,标准语料上F1值达到78.09,基于自动句法树的语料上的F1值达到67.42。  相似文献   

13.
聚类是数据挖掘中非常有用的技术,可从大量数据中发现隐含的数据分布和模式,广泛地应用于电子商务、统计、模式识别和机械学习。在对聚类和DENCLUE算法分析的基础上,结合AKNNC算法的优点,提出基于距离和密度的无监督聚类算法PK-DE。然后论述了模糊簇的划分及参数k,讨论了参数σ和ξ的设置。最后给出了PKDE算法的具体实现方法,并分析了其正确性。  相似文献   

14.
稳健算法为工程和科学应用所必需.本文揭示了由Setnes和Babuska提出的FRC算法[1]的不稳健性,并提出了一种稳健非线性分类器(MFRC).它将模糊聚类与模糊推理的优势相结合,并且对每一聚类中的模糊关系由属于这个聚类的所有局部关系加权平均得到,从而降低了少数规则的破坏影响.本文将MFRC算法与FRC算法在有编号错误和无编号错误的情况下分别与原型由LVQ、GLVQF算法产生的1-NMP算法比较,分类结果显示MFRC算法具有强稳健性和识别率高的特点.  相似文献   

15.
如何快速地整理海量信息,对不同的文本进行有效分类,已成为获取有价值信息的瓶颈。本文提出的中文文本分类方法,较好地解决了信息的实时分类问题,在实践中收到了良好的效果。由于汉语文本的特殊性,在分类器训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类,因此分类算法采用模糊c-原型算法。实验表明,该方法综合效果较好,可以实现文本的快速分类。  相似文献   

16.
介绍一种基于模糊聚类的模糊辨识方法。首先利用含有聚类准则函数的模糊聚类方法来确定模糊规则数和模型前提参数,然后利用最小二乘法来辨识模型的结论参数,最后采用梯度下降法来调整模型的参数。该方法应用于Box-Jenkins数据仿真实例,仿真结果表明该方法简单有效。  相似文献   

17.
随着语义网的不断发展,网页语义的研究也在不断的进步。但现阶段的网络结构中,非语义化网页仍旧占据了信息系统最主要的部分。信息系统在整合的过程中,也需要了解网页的语义结构以完成信息的获取和分析。提出一种基于视觉特征筛选的网页语义结构分析方法。该方法可以在忽略网页语义的情况下,通过网页结构的视觉特性和内容特性分析网页中不同结构的语义关系,使用聚类分析方法来推定网页中半结构化信息的语义结构,并通过该方法对一组随机网页进行了分析,结果证明该方法具有比较好的分析能力。  相似文献   

18.
分布式密度和中心点数据流聚类算法的研究   总被引:1,自引:0,他引:1  
分析分布式数据流聚类算法的基本框架结构,针对CluStream算法对非球形聚类效果不佳提出一种基于密度和中心点的分布式数据流聚类算法DDCS-Clustering(Distributed Density and Centers Stream Clustering)。该算法应用密度、中心点与衰减时间窗口,在分布式环境下对数据流进行聚类。实验结果表明,DDCS-Clustering算法具有较高的聚类质量与较低的通信代价。  相似文献   

19.
基于流数据的模糊聚类算法   总被引:1,自引:0,他引:1  
对流数据进行有效聚类是一个吸引研究者很大注意力的问题.传统的聚类挖掘算法只能适用于纯数值属性数据或纯分类属性数据,很难适用于混合属性的数据.针对混合属性数据的特点,在借鉴AcluStream算法的基础上,提出了一种模糊聚类算法.算法对流数据的相异度分类度量,定量属性使用欧氏距离和曼哈坦距离度量,定性属性可以采用hamming距离度量.模糊聚类算法的主要步骤有两步:第一步,运用最小距离聚类算法进行聚类,构成一个初始类.第二步,对基于最小距离聚类算法进行聚类所得到的初始簇,运用密度聚类方法进行聚合或分割,使得聚类集合稳定.实践证明:该算法是快速地有效的.  相似文献   

20.
模糊熵描述了一个模糊集的模糊性程度本文将模糊熵应用于聚类有效性的判决,指出用于聚类有效性判决的划分系数是一个基于模糊熵的判决标准.通过几个数据对不同模糊熵公式的判决功能进行了比较实验.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号