首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
现有的数据流聚类算法大都只能处理单一数值属性的数据,不能应对同时包含数值属性与分类属性特征的数据,且已存在的混合属性数据流聚类算法在对数据的标准化处理和聚类上还有很大的改进之处,为此,提出二重k近邻混合属性数据流聚类算法.该算法采用CluStream算法的在线、离线框架,并提出了混合属性数据流下三步聚类的思想.算法先运用二重k近邻和改进的维度距离生成微聚类,然后利用动态标准化数据方法和基于均值的余弦模型生成初始宏聚类,最后利用基于均值的余弦模型和先验聚类结果进行宏聚类优化.实验结果表明,所提出的算法具有良好的聚类质量及可扩展性.  相似文献   

2.
基本k近邻(kNN)分类算法具有二次方的时间复杂度,且分类效率和精度较低。针对该问题,提出一种改进的参考点kNN分类算法。依据点到样本距离的方差选择参考点,并赋予参考点自适应权重。实验结果表明,与基本k NN算法及kd-tree近邻算法相比,该算法具有较高的分类精度及较低的时间复杂度。  相似文献   

3.
古凌岚  彭利民 《计算机科学》2016,43(12):213-217
针对传统的基于欧氏距离的相似性度量不能完全反映复杂结构的数据分布特性的问题,提出了一种基于相对密度和流形上k近邻的聚类算法。基于能描述全局一致性信息的流形距离,及可体现局部相似性和紧密度的k近邻概念,通过流形上k近邻相似度度量数据对象间的相似性,采用k近邻的相对紧密度发现不同密度下的类簇,设计近邻点对约束规则搜寻k近邻点对构成的近邻链,归类数据对象及识别离群点。与标准k-means算法、流形距离改进的k-means算法进行了性能比较,在人工数据集和UCI数据集上的仿真实验结果均表明,该算法能有效地处理复杂结构的数据聚类问题,且聚类效果更好。  相似文献   

4.
k近邻(k nearest neighbor, kNN)分类作为数据挖掘中最典型的算法之一,以较高的泛化性能以及充足的理论基础被广泛应用。然而kNN在测试时需要计算待识别实例与所有训练实例之间的距离,以至于在面对大规模数据时需要大量的时间。 为此,提出一种基于分层抽样的kNN加速算法(KNN based on stratified sampling,SS-kNN)。首先将训练实例所在的空间划分为若干个实例个数相等的区域,然后从每个区域内抽取实例,最后判定待识别实例落入划 分区域中的哪一个,并从此区域以及相邻区域抽取的实例中寻找其k个近邻。与原始kNN算法以及基于随机抽样的kNN算法相比,SS-kNN算法可以获得与其相近分类精度,但将其运 行速度分别提高大约399倍和16倍。  相似文献   

5.
密度峰值聚类(DPC)是近年来提出的一种新的密度聚类算法,算法的核心是基于局部密度和相对距离,通过画出决策图,人为选定聚类中心,进而完成聚类.DPC算法利用截断距离计算局部密度,本质上只考虑了周围近邻节点的数量,且算法采用单步分配策略,一定程度上限制了算法对任意数据集的计算精度和有效性.针对上述问题,提出基于二阶k近邻...  相似文献   

6.
连续k近邻查询(continuous k-nearest neighor,Ck NN)定义为查找指定路径上每个点的k个最小代价数据对象。目前关于Ck NN的研究都是在欧式空间与静态路网中实现的,这些算法不能直接应用到边权值变化的时间依赖路网中。定义并解决了时间依赖路网中的Ck NN问题,利用积分的性质以及通过对权值代价函数合并的方式提出了两阶段的基于分割点的Ck NN查询算法。过滤阶段提出了计算节点到达时间的方法,再利用到达时间查询出多个候选k近邻结果;求精阶段将查询点到候选结果的权值函数合并,通过计算函数交点得到分割点,进而为查询返回若干个分割点以及相应区间内的k近邻结果。实验结果表明,与进行多次快照k近邻查询相比,所提算法在响应时间上减少了近一个数量级。  相似文献   

7.
传统的过采样方法是解决非平衡数据分类问题的有效方法之一。基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MOLAD。在此基础上,为了解决非平衡数据的分类问题,提出了一种在采样阶段将MOLAD算法和基于Bagging的集成学习结合的算法LADBMOTE。LADBMOTE首先根据MOLAD计算每个少数类样本的K近邻,然后选择所有的K近邻进行采样,生成K个平衡数据集,最后利用基于Bagging的集成学习方法将K个平衡数据集训练得到的分类器集成。在KEEL公开的20个非平衡数据集上,将提出的LADBMOTE算法与当前流行的7个处理非平衡数据的算法对比,实验结果表明LADBMOTE在不同的分类器上的分类性能更好,鲁棒性更强。  相似文献   

8.
9.
在多标签分类问题中,通过k近邻的分类思想,构造测试样本关于近邻样本类别标签的新数据,通过回归模型建立在新数据下的多标签分类算法。计算测试样本在每个标签上考虑距离的k近邻,构造出每个样本关于标签的新数据集。对新数据集采取线性回归和Logistic回归,给出基于样本k近邻数据的多标签分类算法。为了进一步利用原始数据的信息,考虑每个标签关于原始属性的Markov边界,结合新数据的特征建立新的回归模型,提出考虑Markov边界的多标签分类算法。实验结果表明所给出的方法性能优于常用的多标签学习算法。  相似文献   

10.
基于基因表达式编程的核k近邻分类算法   总被引:2,自引:1,他引:1  
核k近邻分类算法在生物信息学和蛋白质结构预测等领域中的应用受到人们极大的关注.核函数在核k近邻分类算法的分类性能中起着重要的作用,如果核函数及其参数选择得当,则将获得较高的分类准确率.为了自动产生合适的核函数,提高分类的准确率,提出了一种基于基因表达式编程的核k近邻分类算法GEPKNN.该算法的基本思想是用基因表达式编程搜索与训练数据相关的核函数及其参数,在进化过程中用k折交叉验证评估个体的适应度.该算法克服了核k近邻算法的主观性和不确定性,能自动产生合适的核函数并提高分类的准确率.  相似文献   

11.
针对基于k近邻的故障检测方法(Fault Detection method using the k-Nearest Neighbor rule,FD-kNN)的在线实时监测需预估当前时刻之后的采样数据,检测性能会受到预估精度影响的问题,对FD-kNN进行扩展以适用于批次过程的实时监测.该方法根据每个采样时刻的历史数据进行建模,并根据这些模型实时监测批次过程.该方法不需要预估数据,避免由于预估误差大而带来的误报和漏报问题,同时较好地继承k近邻法则(k-Nearest Neighbor rule,kNN)在处理非线性、多模态和非高斯等问题上具有的优势.青霉素发酵过程的仿真试验验证该方法可行.  相似文献   

12.
随着越来越多的数据累积, 对数据处理能力和分析能力的要求也越来越高. 传统k-Nearest Neighbor (kNN)查询算法由于其容易导致计算负载整体不均衡的规则区域划分方法及其单个进程或单台计算机运行环境的较低数据处理能力. 本文提出并详细介绍了一种基于不规则区域划分方法的改进型kNN查询算法, 并利用对大规模数据集进行分布式并行计算的模型MapReduce对该算法加以实现. 实验结果与分析表明, MapReduce框架下基于不规则区域划分方法的kNN查询算法可以获得较高的数据处理效率, 并可以较好的支持大数据环境下数据的高效查询.  相似文献   

13.
基于支持向量机和k-近邻分类器的多特征融合方法   总被引:1,自引:0,他引:1  
陈丽  陈静 《计算机应用》2009,29(3):833-835
针对传统分类方法只采用一种分类器而存在的片面性,分类精度不高,以及支持向量机分类超平面附近点易错分的问题,提出了基于支持向量机(SVM)和k 近邻(KNN)的多特征融合方法。在该算法中,设样本集特征可分为L组,先用SVM算法根据训练集中每组特征数据构造分类超平面,共构造L个;其次用SVM KNN方法对测试集进行测试,得到由L组后验概率构成的决策轮廓矩阵;最后将其进行多特征融合,输出最终的分类结果。用鸢尾属植物数据进行了数值实验,实验结果表明:采用基于SVM KNN的多特征融合方法比单独使用一种SVM或SVM KNN方法的平均预测精度分别提高了28.7%和1.9%。  相似文献   

14.
檀何凤  刘政怡 《计算机应用》2015,35(10):2761-2765
针对K近邻多标签(ML-KNN)分类算法中未考虑标签相关性的问题,提出了一种基于标签相关性的K近邻多标签分类(CML-KNN)算法。首先,计算出标签集合中每对标签间的条件概率;其次,对于即将被预测的标签,将其与已经预测的标签间的条件概率进行排序,求出最大值;最后,将最大值跟对应标签值相乘同时结合最大化后验概率(MAP)来构造多标签分类模型,对新标签进行预测。实验结果表明,所提算法在Emotions数据集上的分类性能均优于ML-KNN、AdaboostMH、RAkEL、BPMLL这4种算法;在Yeast、Enron数据集上仅在1~2个评价指标上低于ML-KNN与RAkEL算法。由实验分析可知,该算法取得了较好的分类效果。  相似文献   

15.
k近邻(kNN)算法是缺失数据填补的常用算法,但由于需要逐个计算所有记录对之间的相似度,因此其填补耗时较高。为提高算法效率,提出结合局部敏感哈希(LSH)的kNN数据填补算法LSH-kNN。首先,对不存在缺失的完整记录进行局部敏感哈希,为之后查找近似最近邻提供索引;其次,针对枚举型、数值型以及混合型缺失数据分别提出对应的局部敏感哈希方法,对每一条待填补的不完整记录进行局部敏感哈希,按得到的哈希值找到与其疑似相似的候选记录;最后在候选记录中通过逐个计算相似度来找到其中相似程度最高的k条记录,并按照kNN算法对不完整记录进行填补。通过在4个真实数据集上的实验表明,结合局部敏感哈希的kNN填补算法LSH-kNN相对经典的kNN算法能够显著提高填补效率,并且保持准确性基本不变。  相似文献   

16.
针对多姿态的人脸检测准确度差的问题,提出了一种多姿态的协同人脸检测模型。该模型由一组超球支持向量机组成,它们被分成三层:第一层1个、第二层3个、第三层9个,共13个支持向量机(SVM)。这些SVM按逐层精细化检测设计,协同完成人脸检测任务。因为一幅图像的大部分区域是非人脸,采用三层模型的设计一方面能提高人脸检测速度,另一方面也增强了检测的针对性,使得能逐层履行更精细的局部区域检测。另外,改进了k近邻(kNN)算法,使其能用于超球重叠样本的检测,并提高了人脸检测的准确度。实验结果表明,相对于传统基于SVM的人脸检测,所提算法在人脸检测的准确率上有5%左右的提升,通过逐层过滤,保证了人脸检测的速度。  相似文献   

17.
孙向琨  邓伟 《计算机工程》2011,37(19):189-190,197
提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法对歌词内容分类错误的类别标记进行修正。选用396首英文歌曲对该算法进行测试,结果表明,与其他方法相比,该方法能使分类精确度从69%提高到74%。  相似文献   

18.
基于密度的kNN分类器训练样本裁剪方法的改进   总被引:3,自引:0,他引:3  
在文本分类中,训练集的分布状态会直接影响k-近邻(kNN)分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法,发现它存在两大不足:一是裁剪之后的均匀状态只是以ε为半径的球形区域意义上的均匀状态,而非最理想的均匀状态即两两样本之间的距离相等;二是未对低密度区域的样本做任何处理,裁剪之后仍存在大量不均匀的区域。针对这两处不足,提出了以下两点改进:一是优化了裁剪策略,使裁剪之后的训练集更趋于理想的均匀状态;二是实现了对低密度区域样本的补充。通过实验对比,改进后的方法在稳定性和准确率方面都有明显提高。  相似文献   

19.
刘子巍  骆曦  李克  陈富强 《计算机工程》2022,48(11):111-119
以卷积神经网络(CNN)为代表的深度学习模型主要面向图像、语音等均匀采样的同质欧氏空间数据,通常不适用于大量存在于工业等领域的异质、非均匀稀疏采样的结构化数据。针对异质、非均匀稀疏采样结构化数据集的预测任务,提出一种基于k近邻(kNN)算法和CNN的超球卷积神经网络学习模型。通过kNN预处理建立各样本在高维属性空间中的结构关系,将样本邻域内各样本的标记作为其属性重构样本集合,实现数据属性集从异质到同质的转化,进而通过合理设计CNN的卷积窗,有效提取和利用各样本的邻域空间中样本的标记分布特征,完成对未知样本的预测。在不同邻域尺度、软硬标记以及混淆非混淆等条件下进行实验,结果表明,该模型预测准确率达到98.04%,其准确率和召回率较FC-CNN、CNN、kNN和Radar-CNN算法分别提升0.28%~1.66%和4.78%~31.92%。  相似文献   

20.
赵京东  杨凤华 《计算机应用》2016,36(10):2863-2869
针对激光散乱点云的数据量大,且具有面型的特点,为降低存储器使用量,提高散乱点云的处理效率,提出了一种散乱点云K最近邻(KNN)搜索算法。首先,利用多级分块、动态链表的存储方式,只存储非空的子空间编号。对相邻子空间进行3进制编码,利用编码的对偶关系,建立相邻子空间之间的指针连接,构造出包含KNN搜索所需的各类信息的广义表,然后再搜索KNN。KNN搜索过程中,在计算被测点到候选点距离时,直接删除筛选立方体内切球之外的点,可将参入按距离排序的候选点数减少为现有算法的一半。依赖K值和不依赖K值的分块原则,均可计算不同的K邻域。实验结果表明,该算法不仅具有低的存储器使用量,而且具有较高的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号