首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于模糊最近邻的高维数据聚类   总被引:3,自引:0,他引:3  
提出一种基于模糊最近邻的聚类算法(简称FNNC算法).FNNC算法通过加权共享最近邻图来形成簇,而且仅仅使用对象图中一些有用的连接.本文通过实验验证了FNNC算法在高维数据聚类中的有效性.  相似文献   

2.
基于最近邻原则的半监督聚类算法   总被引:1,自引:0,他引:1  
基于最近邻原则的半监督聚类算法是以基于最近邻的聚类中心求解算法为基础的。在基于最近邻的聚类中心求解算法中,用相似度矩阵记录数据点间的相似程度,由目标函数最小值求得聚类的类中心点。在基于最近邻原则的半监督聚类算法中,根据约束信息来调整相似度矩阵G,数据点间相似度的变化引起了数据点间加权欧式距离的变化,由此更新加权欧式距离矩阵M,最后执行聚类中心求解算法完成聚类。大量实验结果表明,该算法能获得较好的聚类结果。  相似文献   

3.
通过引入上、下近似的思想,粗糙K-means已成为一种处理聚类边界模糊问题的有效算法,粗糙模糊K-means、模糊粗糙K-means等作为粗糙K-means的衍生算法,进一步对聚类边界对象的不确定性进行了细化描述,改善了聚类的效果。然而,这些算法在中心均值迭代计算时没有充分考虑各簇的数据对象与均值中心的距离、邻近范围的数据分布疏密程度等因素对聚类精度的影响。针对这一问题提出了一种局部密度自适应度量的方法来描述簇内数据对象的空间特征,给出了一种基于局部密度自适应度量的粗糙K-means聚类算法,并通过实例计算分析验证了算法的有效性。  相似文献   

4.
现有粗糙K-means聚类算法及系列改进、衍生算法均是从不同角度描述交叉类簇边界区域中的不确定性数据对象,却忽视类簇间规模的不均衡对聚类迭代过程及结果的影响.文中引入区间2-型模糊集的概念度量类簇的边界区域数据对象,提出基于区间2-型模糊度量的粗糙K-means聚类算法.首先根据类簇的数据分布生成边界区域样本对交叉类簇的隶属度区间,体现数据样本的空间分布信息.然后进一步考虑类簇的数据样本规模,在隶属度区间的基础上自适应地调整边界区域的样本对交叉类簇的影响系数.文中算法削弱边界区域对较小规模类簇的中心均值迭代的不利影响,提高聚类精度.在人工数据集及UCI标准数据集的测试分析验证算法的有效性.  相似文献   

5.
为了解决路网环境中传统的组最近邻查询无法支持用户不确定搜索的问题,在组最近邻查询的基础上引入了“模糊”因子来描述用户查询的不确定性,并提出了四种不同的算法,其中朴素的全局搜索算法利用了Dijkstra 算法的特性来处理不确定性,多维向量算法和V-Tree 算法在此基础上通过缩小搜索空间进一步优化,最后提出的近似算法在牺牲了一定正确率的前提下进一步提高了查询效率。通过在真实路网数据集上的大量实验,总结归纳了不同算法的优势,并充分验证了各个算法的合理性与实用性。  相似文献   

6.
模糊粗糙神经网络特征选择方法研究   总被引:1,自引:0,他引:1  
实际采集的数据中往往存在模糊不确定性和粗糙不确定性,为全面度量数据的不确定性,引入了模糊粗糙集中的模糊粗糙隶属函数概念,并结合容错能力较强的神经网络设计了一种新的模糊粗糙神经网络.该网络不仅训练速度快,且具有较好的分类效果.利用该网络设计了一种新的特征选择算法,根据精度下降指标对输入节点进行结构修剪,实现最优特征子集的搜索.通过UCI数据集实验,并与RBF网络选择结果进行比较,表明该算法具有精度高、速度快、泛化性能好等优点,是有效的.  相似文献   

7.
针对传统K-prototypes在计算分类属性的差异度时未考虑各个分类属性对聚类结果的影响程度,且算法容易受到噪声的干扰,无法处理数据中不够精确、不完整等不确定性问题,提出基于信息熵的粗糙K-prototypes聚类算法。在计算数据样本之间分类属性的差异度时,使用信息熵的理论,确定每个分类属性对于聚类分析结果的影响权重;引入粗糙理论,计算得到各样本与粗糙模之间的粗糙相异度,通过多次迭代计算,获得最终聚类结果。该算法结合信息熵和粗糙理论,可区别对待各分类属性,解决数据不精确引起的不确定性问题,4个UCI数据集上的实验分析结果验证了该算法的有效性。  相似文献   

8.
王淼  郝忠孝 《计算机工程》2010,36(10):47-49
多数不确定性对象的反向近邻查询不能明确回答某个不确定性对象是否为查询对象的反向最近邻,针对该问题,提出概率反向最近邻查询的概念,设计不确定性对象的概率反向最近邻查询的索引结构,给出一种基于该结构的不确定性对象的反向最近邻查询算法。  相似文献   

9.
实时攻击数据集含有缺失属性和大量非攻击样本,呈现属性分布不完全和类分布偏斜的特点,不利于聚类分析。针对此问题,提出了一种面向不完全攻击数据集的两阶段聚类算法。算法首先利用标准2-类支持向量机分离数据集中的非攻击样本,使类分布均衡。提出一种不完全样本间的距离度量方法,将该方法应用于最近邻间隔模糊C均值算法实现聚类。实验结果表明,与现有算法相比,提出的算法有效地提高了聚类准确率。  相似文献   

10.
组最近邻查询是空间对象查询领域的一类重要查询,通过该查询可找到距离给定查询点集最近的空间对象.由于图像分辨率或解析度的限制等因素,空间对象的存在不确定性广泛存在于某些涉及图像处理的查询应用中.这些对象位置数据的存在不确定性会对组最近邻查询结果产生影响.本文给出面向存在不确定对象的概率阈值组最近邻查询定义,设计了高效的查询处理机制,通过剪枝优化等手段提高概率阈值组最近邻查询效率,并进一步提出了高效概率阈值组最近邻查询算法.采用多个真实数据集对概率阈值组最近邻算法进行了实验验证,结果表明所提算法具有良好的查询效率.  相似文献   

11.
在传统的文本分类中,KNN算法以其简单、分类准确率高、非参数得到了广泛的应用。但是传统KNN算法在进行文本分类的过程中,需要计算待分类文本与每一个训练样本的相似度,当面对海量的文本时,分类的效果会明显降低。针对此问题,提出了一种基于三支决策的KNN渐进式文本分类方法用于提高其分类效率,结合三支决策在分类问题中的优势,将三支决策与KNN算法相结合,对标题、摘要、关键词等进行渐进式的分类处理,从而完成待分类文本的分类,提高文本分类的效率和性能。实验表明,该算法能够在确保KNN算法分类准确率的基础上,同时提高分类效率。  相似文献   

12.
针对深层次分类中分类准确率低、处理速度慢等问题,提出一种待分类文本的候选类别搜索算法。首先,引入搜索、分类两阶段的处理思想,结合类别层次树的结构特点和类别间的相关联系等隐含的领域知识,进行了类别层次权重分析和特征项的动态更新,为类树层次结构的各个节点构建更具分类判断力的特征项集合;进而,采用深度优先搜索算法并结合设定阈值的剪枝策略缩小搜索范围,搜索得到待分类文本的最优候选类别;最后,在候选类别的基础上应用经典的K最近邻(KNN)分类算法和支持向量机(SVM)分类算法进行分类测试和对比分析。实验结果显示,所提算法的总体分类性能优于传统的分类算法,而且使平均F1值较基于贪心策略的启发式搜索算法提高了6%左右。该算法显著提高了深层次文本分类的分类准确度。  相似文献   

13.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。  相似文献   

14.
针对传统的文本分类算法存在着各特征词对分类的结果影响相同、分类准确率较低、造成算法时间复杂度增加的问题,提出了一种改进的最大熵C-均值聚类文本分类方法。该方法充分结合了C-均值聚类和最大熵值算法的优点,以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用C-均值聚类算法对最优特征进行分类。仿真实验结果表明,与传统的文本分类方法相比,提出的方法能够快速得到最优分类特征子集,大大提高了文本分类准确率。  相似文献   

15.
研究了共轭梯度算法、拟牛顿算法、LM算法三类常用的数值优化改进算法,基于这三类数值优化算法分别对BP神经网络进行改进,并构建了相应的BP神经网络分类模型,将构建的分类模型应用于二维向量模式的分类,并进行了泛化能力测试,将不同BP网络分类模型的分类结果进行对比. 仿真结果表明,对于中小规模的网络而言,LM数值优化算法改进的BP网络的分类结果最为精确,收敛速度最快,分类性能最优;共轭梯度数值优化算法改进的BP网络的分类结果误差最大,收敛速度最慢,分类性能最差;拟牛顿数值优化算法改进的BP网络的分类结果误差值、收敛速度及分类性能介于上述两种算法之间.  相似文献   

16.
RFC算法是目前具有代表性的一种报文分类算法,具有匹配速度快、占用内存少、支持范围匹配等优点,但是它不能处理变长字符串域.结合多模式匹配算法的思想,对RFC算法进行了有益扩充,使新算法能够根据变长字符串域进行分类.实验结果表明,改进的算法在有效扩展KFC算法的适用范围的基础上,仍具有良好的性能.  相似文献   

17.
文章提出了一种基于模糊规则的分类方法。该方法首先介绍了基于模糊C均值聚类的模糊规则提取,然后利用所建立的模糊规则库设计了一种分类算法,并且利用启发式搜索来精简分类规则。使用IRIS数据对该文的方法进行了性能测试,结果表明该方法在训练样本较少的情况下,能得到很好的分类效果,并且通过规则精简,所使用的规则数目大大下降,而分类性能更加优良。  相似文献   

18.
针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了一种基于Canopy和粗糙集的CRS-KNN(Canopy Rough Set-KNN)文本分类算法。算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似作差所得的边界区域数据需要通过KNN算法确定其最终的类别。实验结果表明,该算法降低了KNN算法的数据计算规模,提高了分类效率。同时与传统的KNN算法和基于聚类改进的KNN文本分类算法相比,准确率、召回率和[F1]值都得到了一定的提高。  相似文献   

19.
分类问题是数据挖掘中的一项重要课题,然而目前对于癌症数据的分类研究还相对较少。近年来提出的强跳跃显露模式SJEP是一种具有很强区分能力的新模式,对于癌症数据的分类具有明显的优势。为了使癌症数据的分类精确度得以进一步提升,本文引入集成学习的思想,对原有的Boosting算法做出一些改进,并将改进后的Boosting算法与SP-树分类算法相结合,提出一种以SP-树分类算法作为基学习算法的SP_Boost算法。  相似文献   

20.
针对传统三维模型分类算法时间复杂度较高、分类准确率较低等问题,提出一种基于体素模型与卷积神经网络的三维模型分类算法。将原始模型表示为八叉树结构的体素模型以优化模型的性状表达,使用设计的卷积神经网络对体素模型进行特征提取以及分类运算。实验结果表明,与其他三维模型分类算法相比,该分类算法的显存占用较小,同时具有较低的时间复杂度和较高的分类能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号