首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
针对高维输入数据维数较大时可能存在奇异值问题,同时为提高算法的运算效率以及算法的鲁棒性,提出了一种基于L1范数的分块二维局部保持投影算法B2DLPP-L1。传统的局部保持投影算法为避免出现奇异值问题,首先运用主成分分析算法将高维数据投影到子空间中,然而这种方式将会造成高维数据中部分有效信息的流失,B2DLPP-L1算法选择将二维数据直接作为输入数据,避免运用向量形式的输入数据时可能造成的数据流失;同时该算法对二维输入数据进行分块处理,将分块后的数据块作为新的输入数据,之后运用基于L1范数的二维局部保持投影算法对其进行降维。理论上,B2DLPP-L1算法能够较好地对数据进行降维,不仅能够保持高维数据中的有效信息,降低计算复杂程度,提高算法的运行效率,同时还能够克服存在外点情况下分类准确率较低问题,提高算法的鲁棒性。通过选择不同的人脸数据库进行实验,实验结果表明,在存在外点的情况下,运用最近邻分类器时能够取得更高的分类准确率,同时所需的分类时间有所减少。  相似文献   

2.
现实世界中高维数据无处不在,然而在高维数据中往往存在大量的冗余和噪声信息,这导致很多传统聚类算法在对高维数据聚类时不能获得很好的性能.实践中发现高维数据的类簇结构往往嵌入在较低维的子空间中.因而,降维成为挖掘高维数据类簇结构的关键技术.在众多降维方法中,基于图的降维方法是研究的热点.然而,大部分基于图的降维算法存在以下两个问题:(1)需要计算或者学习邻接图,计算复杂度高;(2)降维的过程中没有考虑降维后的用途.针对这两个问题,提出一种基于极大熵的快速无监督降维算法MEDR. MEDR算法融合线性投影和极大熵聚类模型,通过一种有效的迭代优化算法寻找高维数据嵌入在低维子空间的潜在最优类簇结构. MEDR算法不需事先输入邻接图,具有样本个数的线性时间复杂度.在真实数据集上的实验结果表明,与传统的降维方法相比, MEDR算法能够找到更好地将高维数据投影到低维子空间的投影矩阵,使投影后的数据有利于聚类.  相似文献   

3.
考虑到单个特征对标签的有效性及多特征之间的信息冗余问题,提出一种联合互信息和改进PCA的双重降维方法。利用互信息对众多的特征进行初步筛选,舍弃一部分对标签信息贡献较低的特征,使用累积方差贡献率和复相关系数共同确定主元个数的主成分分析法进行二次降维,不仅保证了主元模型的信息容量,同时也避免了过多噪声的参与,从而保证了预测过程的准确性。通过神经网络对实际股票数据进行预测,表明了提出的降维算法的有效性。  相似文献   

4.
基于流形学习和SVM的Web文档分类算法   总被引:7,自引:4,他引:3       下载免费PDF全文
王自强  钱旭 《计算机工程》2009,35(15):38-40
为解决Web文档分类问题,提出一种基于流形学习和SVM的Web文档分类算法。该算法利用流形学习算法LPP对训练集中的高维Web文档空间进行非线性降维,从中找出隐藏在高维观测数据中有意义的低维结构,在降维后的低维特征空间中利用乘性更新规则的优化SVM进行分类预测。实验结果表明该算法以较少的运行时间获得更高的分类准确率。  相似文献   

5.
针对现有的聚类集成算法大都是无监督聚类集成算法且不能很好地处理高维数据的问题,设计一种基于PCA降维技术的成对约束半监督聚类集成算法(SSCEDR).SSCEDR方法使用PCA主成分分析对原始数据进行降维,结合半监督聚类集成技术,在降维后的空间中将成对约束等先验知识代入到聚类集成过程中.本文通过在多组数据集上实验来验证...  相似文献   

6.
裘国永  张娇 《计算机应用研究》2012,29(10):3685-3687
分析和研究了自适应降维算法在高维数据挖掘中的应用。针对已有数据挖掘算法因维灾难导致的在处理高维数据时准确率和聚类质量都较低的情况,将二分K-均值聚类和SVM决策树算法结合在一起,提出了一种适用于高维数据聚类的自适应方法 BKM-SVMDT。该算法能保证二分K-均值聚类是在低维数据空间中进行,其结果再反过来帮助SVM在高维空间中的执行,这样反复执行以取得较好的分类精度和效率。标准数据集的实验结果证明了该方法的有效性。  相似文献   

7.
为了解决主成分分析(PCA)算法无法处理高维数据降维后再聚类精确度下降的问题,提出了一种新的属性空间概念,通过属性空间与信息熵的结合构建了基于特征相似度的降维标准,提出了新的降维算法ENPCA。针对降维后特征是原特征的线性组合而导致可解释性变差以及输入不够灵活的问题,提出了基于岭回归的稀疏主成分算法(ESPCA)。ESPCA算法的输入为主成分降维结果,不需要迭代获得稀疏结果,增加了灵活性和求解速度。最后在降维数据的基础上,针对遗传算法聚类收敛速度慢等问题,对遗传算法的初始化、选择、交叉、变异等操作进行改进,提出了新的聚类算法GKA++。实验分析表明EN-PCA算法表现稳定,GKA++算法在聚类有效性和效率方面表现良好。  相似文献   

8.
高维图像特征数据不利于图像数据挖掘。为了降低图像特征数据维数,提出了基于概念格的降维算法,该算法将图像的HSV颜色特征转换为图像形式背景,再对背景的概念格进行属性约简。实验结果表明,该降维方法比较有效,并且较主成分分析具有明显的优势。  相似文献   

9.
孙霞  王自强 《计算机工程》2011,37(22):134-136
提出一种基于局部Fisher鉴别分析(LFDA)和优化支持向量机(SVM)的高效人脸识别算法。在综合考虑局部几何结构和类别信息的基础上,利用LFDA将高维人脸数据映射到低维特征空间,避免维数灾难问题。在该低维特征空间中,使用经乘性更新规则训练的优化SVM对人脸数据进行分类识别。在人脸数据库上的实验结果表明,该算法的运算速度较快,识别准确率较高。  相似文献   

10.
近年来,高维数据算法在诸如机器学习领域以及模式识别当中有着十分广泛的应用.降维算法的目的是为了揭示出在高维数据空间中样本数据的固有的组成特性,关注于寻找原始数据集特征表示中有价值的信息.相邻区域选择问题对流形学习降维算法的性能改进至关重要.因此,该文提出一种流形学习降维算法中的新动态邻域选择方法Mod-HLLE(mod...  相似文献   

11.
主成分分析(Principal Component Analysis,PCA)可以处理大量过程参数间的关系与变化,排除次要因素,提取主要因素。文章将主成分分析和决策树C4.5算法相结合,提出一种心脏病诊断预测的新方法,该方法采用PCA方法对影响心脏病诊断的众多变量进行降维处理,减少了预测模型的输入量,消除输入数据间的相关性,用C4.5算法建立心脏病诊断的预测模型。经实验证明有效的提高了C4.5算法的分类正确率,提高了心脏病诊断的正确率。  相似文献   

12.
针对决策树C4.5算法在处理连续值属性过程中时间复杂度较高的问题,提出一种新的决策树构建方法:采用概率论中属性间的相关系数(Pearson),对数据集中的属性进行约简;结合属性的信息增益率,保留决策属性的最优子集,保证属性子集中没有冗余属性;采用边界点的判定,改进了连续值属性离散化过程中阈值分割方法,对信息增益率的计算进行修正。采用UCI数据库中的数据集,在Pycharm平台上进行一系列对比实验,结果表明:采用改进后C4.5决策树算法,决策树生成效率提高了约50%,准确率提升约2%,比较有效地解决了原C4.5算法属性选择偏连续值属性的问题。  相似文献   

13.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

14.
随着人民生活水平的不断提高,肿瘤疾病的人数在不断增多,其中肺癌是21世纪严重危害人类健康的重大疾病.为此提出一种基于电子病历的肺癌诊断决策树方法.首先分析肺癌电子病历的特点以及决策树存在结构不稳定、过拟合等现象,运用主成分分析法结合C5.0算法构建的优化决策树模型.首先,建立主成分特征根大于1以及主成分累计贡献率大于85%的特征降维两种方法,然后通过C5.0算法建立决策树模型和剪枝操作,最后给出数据预处理过程及模型的执行流程和测试结果.实验结果分析,改进的算法有较好的准确率以及良好的可扩展性,从而验证了改进后的算法对于辅助肺癌临床实验具有重要的意义.  相似文献   

15.
在利用现有C4.5算法构建期货预测决策树时,往往出现预测准确率低的弊端,导致预测模型很难使用,为此提出了一种面向期货数据的C4.5-[K]算法。该算法的主要思想是通过在C4.5算法中引进新的参数[K],调整属性度量标准信息增益率的取值范围,进而构建决策树预测模型进行预测。通过实验表明,该改进算法能有效提高期货预测能力。  相似文献   

16.
Cybernetics studies information process in the context of interaction with physical systems. Because such information is sometimes vague and exhibits complex interactions; it can only be discerned using approximate representations. Machine learning provides solutions that create approximate models of information and decision trees are one of its main components. However, decision trees are susceptible to information overload and can get overly complex when a large amount of data is inputted in them. Granulation of decision tree remedies this problem by providing the essential structure of the decision tree, which can decrease its utility. To evaluate the relationship that exists between granulation and decision tree complexity, data uncertainty and prediction accuracy, the deficiencies obtained by nursing homes during annual inspections were taken as a case study. Using rough sets, three forms of granulation were performed: (1) attribute grouping, (2) removing insignificant attributes and (3) removing uncertain records. Attribute grouping significantly reduces tree complexity without having any strong effect upon data consistency and accuracy. On the other hand, removing insignificant features decrease data consistency and tree complexity, while increasing the error in prediction. Finally, decrease in the uncertainty of the dataset results in an increase in accuracy and has no impact on tree complexity.  相似文献   

17.
随机森林在bootstrap的基础上通过对特征进行抽样构建决策树,以牺牲决策树准确性的方式来降低决策树间的相关性,从而提高预测的准确性。但在数据规模较大时,决策树间的相关性仍然较高,导致随机森林的性能表现不佳。为解决该问题,提出一种基于袋外预测的改进算法,通过提高决策树的准确性来提升随机森林的预测性能。将随机森林的袋外预测与原特征相结合并重新训练随机森林,以有效降低决策树的VC-dimension、经验风险、泛化风险并提高其准确性,最终提升随机森林的预测性能。然而,决策树准确性的提高会使决策树间的预测趋于相近,提升了决策树间的相关性从而影响随机森林最终的预测表现,为此,通过扩展空间算法为不同决策树生成不同的特征,从而降低决策树间的相关性而不显著降低决策树的准确性。实验结果表明,该算法在32个数据集上的平均准确率相对原始随机森林提高1.7%,在校正的paired t-test上,该方法在其中19个数据集上的预测性能显著优于原始随机森林。  相似文献   

18.
针对电信企业客户流失问题,提出采用贝叶斯决策树算法的预测模型,将贝叶斯分类的先验信息方法与决策树分类的信息熵增益方法相结合,应用到电信行业客户流失分析中,分别将移动公司的客户数据以及UCI数据纳入到模型中得出相应的结果。加入贝叶斯节点弥补决策树不能处理缺失值以及二义性数据的缺点。检验结果表明,基于贝叶斯推理的决策树算法在牺牲了较小的训练时间与分类时间的情况下,得到了比仅基于决策树算法更高的覆盖率与命中率。  相似文献   

19.
针对医院信息管理工作难度大,数据种类复杂并且对于医院管理数据利用率低等问题,设计一种医院信息管理系统,该系统软件设计采用C/S架构记性设计;针对医院数据挖掘技术,通过改进Apriori算法和增量决策树算法对数据进行处理,提高医院信息利用率;并通过设计模拟实验方案对设计的算法进行验证,其中对于改进Apriori算法与原始的Apriori算法相比起处理速度提升了 10倍;对于增量决策树算法分类的准确率比C4.5算法和ID3算法高5%以上,并且在增量学习中耗时是C4.5算法和ID3算法的40%以下.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号