首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
机器学习回归方法被广泛应用于复杂工业过程的软测量建模k-最近邻(kNN)算法是一种流行的学习算法,可用于函数回归问题.然而,传统kNN算法存在运行效率低、距离计算忽略特征权值的缺点.本文引入了二次型距离定义和样本集剪辑算法,改进了传统kNN回归算法,并将改进的算法用于工业过程软测量建模.仿真实验得到了一些有益的结论.  相似文献   

2.
本文通过研究KNN(K-最近邻)算法在疾病预测领域的使用与分析,总结出KNN的2点不足,针对不足进行相应改进并提出F_KNN(循环最近邻搜索)算法:1)针对KNN计算量大、效率低下的缺点,本文采用FLANN(快速最近邻搜索)循环搜索与待测样本距离最近的点,记录若干个最近邻点作为最近邻点子集,利用此子集取代全集对待测样本进行计算,可以降低计算量,极大地提高了KNN算法效率;2)针对KNN难以对高维数据集分类的缺点,本文采用AHP(层次分析法)对样本的特征属性进行相关性研究,使用合适的参数分配权重,提高了KNN算法准确率。本文采用一组脑中风数据集对优化后的算法进行实验,实验结果表明,F_KNN准确率达96.2%。与传统KNN相比,F_KNN提高了分类性能且极大地提高了算法效率。在处理高维且较大的数据集时,F_KNN算法优势明显,具有较好的应用前景。  相似文献   

3.
针对高维不平衡数据中维数灾难和类不平衡分布问题,提出一种改进k最近邻(kNN)分类算法HWNN。将样本的k发生分布作为其在预测时对各个类的支持度,以此减少高维数据中hubs对kNN分类带来的潜在负面影响。通过类加权的方式增加少数类在所有样本k发生中的分布比例,以提升对少数类样本的预测精度。在16个不平衡UCI数据集上的实验结果表明,该算法在高维不平衡数据中的分类结果优于典型kNN方法,且在普通维度的不平衡数据中优势同样明显。  相似文献   

4.
针对传统的kNN(k-NearestNeighbor)近邻填补算法对缺失数据的填补效果会因为k最近邻数据存在噪声受到较大干扰的问题,提出一种基于kNN-DBSCAN(k-NearestNeighbor Density-based Spatial Clustering of Applications with Noise)的缺失数据填补优化算法。将基于密度的DBSCAN聚类算法运用到kNN近邻填补算法中,先用kNN算法得到目标填补数据的原始k最近邻数据集,运用DBSCAN聚类算法对原始k最近邻数据集进行噪声检测并消除噪声数据,得到当前k最近邻数据集,最后并入kNN计算,填补目标缺失数据;同时,针对DBSCAN聚类算法参数设置敏感的问题,通过分析数据集的统计特性来确定参数,避免人为经验判断。最后利用真实数据对算法进行验证,结果显示该算法对目标缺失数据的填补准确度要优于传统的kNN算法。  相似文献   

5.
SVM-KNN分类算法研究   总被引:1,自引:0,他引:1  
SVM-KNN分类算法是一种将支持向量机(SVM)分类和最近邻(NN)分类相结合的新分类方法。针对传统SVM分类器中存在的问题,该算法通过支持向量机的序列最小优化(SMO)训练算法对数据集进行训练,将距离差小于给定阈值的样本代入以每类所有的支持向量作为代表点的K近邻分类器中进行分类。在UCI数据集上的实验结果表明,该分类器的分类准确率比单纯使用SVM分类器要高,它在一定程度上不受核函数参数选择的影响,具有较好的稳健性。  相似文献   

6.
针对最近邻分类算法性能受到所采用的相似度或距离度量方法影响大,且难以选择最优的相似度或距离度量方法的问题,提出一种采用多相似度的基于有序规范实数对的K最近邻分类算法(OPNs-KNN)。首先,在机器学习领域中引入有序规范实数对(OPN)这一新的数学理论,利用多种相似度或距离度量方法将训练集和测试集中所有样本全部转换为OPN,使每个OPN均包含不同的相似度信息;然后再通过改进的最近邻算法对OPN进行分类,实现不同相似度或距离度量方法的结合与互补,从而提高分类性能。实验结果表明,在Iris、seeds等数据集上与距离加权K近邻规则(WKNN)等6种最近邻分类的改进算法相比,OPNs-KNN的分类准确率提高了0.29~15.28个百分点,验证了所提算法能大幅提升分类的性能。  相似文献   

7.
针对背景知识数据集中存在的类不平衡对分类器的影响,根据背景知识数据集样本量小、数据维数高的特性分析了目前各种方法在解决背景知识数据中的类不平衡问题时的缺陷,提出了一种基于分类后处理的改进SVM算法。改进算法引入权重参数调整SVM的分类决策函数,提高少类样本对分类器的贡献,使分类平面向多类样本倾斜,从而解决类不平衡对SVM造成的影响。在MAROB数据集上的实验表明,改进算法对少类的预测效果要优于传统的机器学习算法。  相似文献   

8.
最近邻分类的多代表点学习算法   总被引:4,自引:0,他引:4  
经典的k-最近邻算法存在参数k难以确定和分类效率低的缺点.基于模型的kNN算法使用代表点集合构造训练样本的分类模型,克服上述缺点,但需要较高的计算时间代价.文中提出一种高效的多代表点学习算法,用于最近邻分类.运用结构风险最小化理论对影响分类模型期望风险的因素进行分析.在此基础上,使用无监督的局部聚类算法学习优化的代表点集合.在实际应用数据集上的实验结果表明,该算法可对复杂类别结构数据进行有效分类,并大幅度提高分类效率.  相似文献   

9.
K最近邻算法理论与应用综述   总被引:2,自引:0,他引:2  
k最近邻算法(kNN)是一个十分简单的分类算法,该算法包括两个步骤:(1)在给定的搜索训练集上按一定距离度量,寻找一个k的值。(2)在这个kNN算法当中,根据大多数分为一致的类来进行分类。kNN算法具有的非参数性质使其非常易于实现,并且它的分类误差受到贝叶斯误差的两倍的限制,因此,kNN算法仍然是模式分类的最受欢迎的选择。通过总结多篇使用了基于kNN算法的文献,详细阐述了每篇文献所使用的改进方法,并对其实验结果进行了分析;通过分析kNN算法在人脸识别、文字识别、医学图像处理等应用中取得的良好分类效果,对kNN算法的发展前景无比期待。  相似文献   

10.
传统k最近邻算法kNN在数据分类中具有广泛的应用,但该算法具有较多的冗余计算,致使处理高维数据时花费较多的计算时间。同时,基于地标点谱聚类的分类算法(LC-kNN和RC-kNN)中距离当前测试点的最近邻点存在部分缺失,导致其准确率降低。针对上述问题,提出一种基于聚类的环形k最近邻算法。提出的算法在聚类算法的基础上,首先将训练集中相似度较高的数据点聚成一个簇,然后以当前测试点为中心设置一个环形过滤器,最后通过kNN算法对过滤器中的点进行分类,其中聚类算法可以根据实际情况自由选择。算法性能已在UCI数据库中6组公开数据集上进行了实验测试,实验结果表明:AkNN_E与AkNN_H算法比kNN算法在计算量上平均减少51%,而在准确率上比LC-kNN和RC-kNN算法平均提高3%。此外,当数据在10 000维的情况下该算法仍然有效。  相似文献   

11.
为了解决实际问题,大数据分析处理系统需要获取数据,然而实际场景中收集到的实际数据通常不完备.另外,大多数问题的解决方案通常是由问题引导或者仅仅进行数据分析,运行参数调整和设定带有较大的盲目性,难以达到应用的智能性.为此,文中提出平行数据的概念和框架,根据实际数据经计算实验产生真正的虚拟大数据,结合默顿定律,以期待的解决方案与问题进行广义对偶,引导大数据聚焦到实际问题.实际数据与虚拟数据动态互动,平行演化,形成一个虚实相生、数据动态变化的过程,最终使数据具备智能,进而解决未知的问题.平行数据不但是一种数据表示形式,更是一种数据演化机制与方式,其特色是虚实互动,所有数据的动力学轨迹构成了数据动力学系统.平行数据为数据处理、表示、挖掘和应用提供了一个新的范式.  相似文献   

12.
数据挖掘是一新兴的技术,近年对其研究正在蓬勃开展。本文阐述了数据仓库及数据挖掘的相关概念,做了相应的分析,同时共同探讨了两者共同发展的关系,并对数据仓库与挖掘技术结合应用的发展做了展望。  相似文献   

13.
在大多数信息管理中都存在模式和数据转换,且都是单独被研究。相信有统一机制,将中间件看成是转换引擎,并且讨论在什么时候进行转换如何进行转换。  相似文献   

14.
数据挖掘是一新兴的技术,近年对其研究正在蓬勃开展.本文阐述了数据仓库及数据挖掘的相关概念,做了相应的分析,同时共同探讨了两者共同发展的关系,并对数据仓库与挖掘技术结合应用的发展做了展望.  相似文献   

15.
数据清理中几种解决数据冲突的方法   总被引:5,自引:0,他引:5  
建立数据挖掘模型的基石是数据仓库,数据仓库的质量直接影响到数据挖掘模型的建立与执行效率,并有可能影响到数据挖掘模型的最终结果的准确度。数据清理就是发现数据中的错误和不一致并加以消除,以提高数据的质量,使得数据挖掘模型建立的过程更加快捷和简便,挖掘出来的模式和规则也就更加有效和适用。  相似文献   

16.
数据基因:数据的遗传信息载体   总被引:3,自引:0,他引:3       下载免费PDF全文
基因是生命体进化过程中遗传信息的载体,该文参照生命体基因的概念,提出了用于描述数据生命历程的简单的数据基因模型。给出了数据基因、数据基因序列、数据基因组等概念,介绍了这种模型的应用领域及应用方法,对下一步工作进行了展望。  相似文献   

17.
将数据仓库运用到移动通信网络管理平台是当前比较受关注的一项技术。而数据抽取、净化和整合是数据仓库构建过程中最复杂的部分。提出了在移动通信网络管理平台中的实现方案  相似文献   

18.
ECAS数据仓库中数据集成的相关问题   总被引:2,自引:0,他引:2  
数据仓库越来越广泛地应用于企业决策分析 ,从传统的操作型数据库集成数据是创建数据仓库必不可少的一步。结合宝钢能源部能源分析及成本分析系统 (ECAS)数据仓库 ,介绍了建立数据仓库时从不同的数据源抽取数据、清洗数据的相关问题。  相似文献   

19.
数据仓库中的数据集成转换   总被引:2,自引:0,他引:2  
本文首先提出了数据仓库中数据集成的一个总体框架,然后列举了在数据转换中可能遇到的主要问题,最后根据这些转换规则,给出了一种描述性脚本语言来描述这些规则,继而给相应的处理模块解析处理。  相似文献   

20.
现阶段的数据挖掘研究工作主要集中于挖掘核心算法方面,忽视了对数据预处理的研究。本文将数据预处理无缝集成于数据仓库的构建过程中,提出了一种数据预处理过程模型,对企业成功实施数据挖掘应用做出了有益的探索。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号