首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 256 毫秒
1.
已有的数据流分类算法多采用有监督学习,需要使用大量已标记数据训练分类器,而获取已标记数据的成本很高,算法缺乏实用性。针对此问题,文中提出基于半监督学习的集成分类算法SEClass,能利用少量已标记数据和大量未标记数据,训练和更新集成分类器,并使用多数投票方式对测试数据进行分类。实验结果表明,使用同样数量的已标记训练数据,SEClass算法与最新的有监督集成分类算法相比,其准确率平均高5。33%。且运算时间随属性维度和类标签数量的增加呈线性增长,能够适用于高维、高速数据流分类问题。  相似文献   

2.
针对无监督属性选择算法无类别信息和未考虑属性低秩等问题,该文提出了一种融合K均值聚类和低秩约束的属性选择算法。算法在线性回归的模型框架中有效地嵌入自表达方法,同时利用K均值聚类产生伪类标签最大化类间距以更好地稀疏结构,并使用l2,p-范数代替传统的l2,1-范数,通过参数p来灵活调节结果的稀疏性,最后证明了该文算法具有执行线性判别分析的特点和收敛性。经实验验证,该文提出的属性算法与NFS算法、LDA算法、RFS算法、RSR算法相比分类准确率平均提高了17.04%、13.95%、3.6%和9.39%,分类准确率方差也是最小的,分类结果稳定。  相似文献   

3.
针对处理高维度属性的大数据的属性约减方法进行了研究。发现属性选择和子空间学习是属性约简的两种常见方法,其中属性选择具有很好的解释性,子空间学习的分类效果优于属性选择。而往往这两种方法是各自独立进行应用。为此,提出了综合这两种属性约简方法,设计出新的属性选择方法。即利用子空间学习的两种技术(即线性判别分析(LDA)和局部保持投影(LPP)),考虑数据的全局特性和局部特性,同时设置稀疏正则化因子实现属性选择。基于分类准确率、方差和变异系数等评价指标的实验结果比较,表明该算法相比其它对比算法,能更有效的选取判别属性,并能取得很好的分类效果。  相似文献   

4.
张乐园  李佳烨  李鹏清 《计算机应用》2018,38(12):3444-3449
针对高维的数据中往往存在非线性、低秩形式和属性冗余等问题,提出一种基于核函数的属性自表达无监督属性选择算法——低秩约束的非线性属性选择算法(LRNFS)。首先,将每一维的属性映射到高维的核空间上,通过核空间上的线性属性选择去实现低维空间上的非线性属性选择;然后,对自表达形式引入偏差项并对系数矩阵进行低秩与稀疏处理;最后,引入核矩阵的系数向量的稀疏正则化因子来实现属性选择。所提算法中用核矩阵来体现其非线性关系,低秩考虑数据的全局信息进行子空间学习,自表达形式确定属性的重要程度。实验结果表明,相比于基于重新调整的线性平方回归(RLSR)半监督特征选择算法,所提算法进行属性选择之后作分类的准确率提升了2.34%。所提算法解决了数据在低维特征空间上线性不可分的问题,提升了属性选择的准确率。  相似文献   

5.
基于熵权的K最临近算法改进   总被引:1,自引:0,他引:1       下载免费PDF全文
维度灾难直接影响到K最临近算法(KNN)的效率和准确率,将信息论中的信息熵理论与KNN算法结合起来,用信息熵理论进行属性约简,并根据特征属性与分类的相关度来确定各属性的权限,从而建立相关度与权重的内在联系。仿真实验表明,与传统的KNN相比,基于熵权的KNN改进方法在保持分类效率的情况下,使分类器的准确率得到了极大的提高。  相似文献   

6.
基于粗糙集的决策树算法由于粒化冲突与噪声影响容易导致特征选择的失效。提出属性纯度并结合属性依赖度来构建决策树归纳算法。采用统计集成策略来建立属性纯度,表示决策分类关于条件分类的识别性,并用于相应的属性特征选择;分析属性纯度与属性依赖度的同质性和异态性,采用先属性依赖度后属性纯度选择节点的方法,改进基于粗糙集的决策树算法。决策表例分析与数据实验对比均表明所提算法的有效性与改进性。  相似文献   

7.
KNN算法是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决相关问题,本文首先利用粗糙集对高维文本信息进行属性约简,删除冗余属性,而后用改进的基于簇的KNN算法进行文本分类。通过仿真实验,证明该方法能够提高文本的分类精度和准确率。  相似文献   

8.
为了提高人民生活质量,政府部门不断加强水质管理,然而人工分类方法无法满足实时处理的需求,传统机器学习方法的分类准确率又不够高。集成学习使用多种学习算法来获得比单一学习算法更好的预测性能。首先,对集成学习进行概述,简要介绍了Bagging和Boosting算法,并提出基于协方差自适应调整的进化策略算法(CMAES)的集成学习方法。接着,介绍了数据处理方式、模型评估方法和评价指标。最后,用CMAES集成学习方法对逻辑回归、线性判别分析、支持向量机、决策树、完全随机树、朴素贝叶斯、K-邻近算法、随机森林、完全随机树林、深度级联森林十种模型进行集成。实验结果表明,CMAES集成学习方法优于所有其他模型,该方法将继续被应用到未来的研究之中。  相似文献   

9.
为了点对点自动学习脑电信号(Electroencephalogram,EEG)空间与时间维度上的情感相关特征,提高脑电信号情感识别的准确率,基于DEAP数据集中EEG信号的时域、频域特征及其组合特征,提出一种基于卷积神经网络(Convolution Neural Network,CNN)模型的EEG情感特征学习与分类算法。采用包括集成决策树、支持向量机、线性判别分析和贝叶斯线性判别分析算法在内的浅层机器学习模型与CNN深度学习模型对DEAP数据集进行效价和唤醒度两个维度上的情感分类实验。实验结果表明,在效价和唤醒度两个维度上,深度CNN模型在时域和频域组合特征上均取得了目前最好的两类识别性能,在效价维度上比最佳的传统分类器集成决策树模型提高了3.58%,在唤醒度上比集成决策树模型的最好性能提高了3.29%。  相似文献   

10.
传统高光谱遥感影像逐像素分类方法未考虑像元之间的空间关联性且泛化性能较低。形态学属性剖面是表征影像空间结构的有效方法,同时集成学习可显著提升分类算法的泛化能力。为了在高光谱影像分类中充分利用影像的空间信息并提高分类的稳定性,提出一种基于形态学属性剖面高光谱遥感影像集成学习分类方法。首先,用主成分分析和最小噪声变换进行特征提取,并借助形态学属性剖面获取影像的多重空间特征;然后用极限学习和支持向量机的方法进行分类;最后将多个分类结果以多数投票的方式集成。区别于已有集成学习方法,综合考虑了不同特征提取和不同分类方法的联合集成,并将形态学属性剖面引入其中以充分利用影像的空间信息。采用AVIRIS和ROSIS两组高光谱数据检验该方法的分类性能,实验结果表明该方法可获得高精度和高稳定性的分类结果,总体精度分别达到83.41%和95.14%。  相似文献   

11.
Microarray data classification is a task involving high dimensionality and small samples sizes. A common criterion to decide on the number of selected genes is maximizing the accuracy, which risks overfitting and usually selects more genes than actually needed. We propose, relaxing the maximum accuracy criterion, to select the combination of attribute selection and classification algorithm that using less attributes has an accuracy not statistically significantly worst that the best. Also we give some advice to choose a suitable combination of attribute selection and classifying algorithms for a good accuracy when using a low number of gene expressions. We used some well known attribute selection methods (FCBF, ReliefF and SVM-RFE, plus a Random selection, used as a base line technique) and classifying techniques (Naive Bayes, 3 Nearest Neighbor and SVM with linear kernel) applied to 30 data sets involving different cancer types.  相似文献   

12.
基于知识的模型自动选择策略   总被引:1,自引:0,他引:1  
戴超凡  冯旸赫 《计算机工程》2010,36(11):170-172
模型自动选择是决策支持系统智能化发展的必然要求。针对目前实用算法较少的现状,提出一种模型自动选择策略。基于知识框架描述模型,根据事实库和知识库提取相应规则生成推理树,结合经验和专业知识实现模型自动选择。实验结果表明,该策略具有较高的命中率。  相似文献   

13.
姚晟  汪杰  徐风  陈菊 《计算机应用》2018,38(1):97-103
针对现有的属性约简算法不适合处理数值型属性和符号型属性共同存在的不完备数据,提出了一种拓展不完备邻域粗糙集模型。首先,通过考虑属性值的概率分布来定义缺失属性值之间的距离,可以度量具有混合属性的不完备数据;其次,定义了邻域混合熵来评价属性约简的质量,分析证明了相关的性质定理,并构造了一种基于邻域混合熵的不完备邻域粗糙集属性约简算法;最后从UCI数据集中选取了7组数据进行实验,并分别与基于依赖度的属性约简(ARD)、基于邻域条件熵的属性约简(ARCE)、基于邻域组合测度的属性约简(ARNCM)算法进行了比较。理论分析和实验结果表明,所提算法约简属性比ARD、ARCE、ARNCM分别减少了约1,7,0个,所提算法的分类精度比ARD、ARCE、ARNCM分别提高了约2.5,2.1,0.8个百分点。所提算法不仅能够获得较少的约简属性,同时具有较高的分类精度。  相似文献   

14.
基于粗糙集的决策树构造算法   总被引:7,自引:2,他引:5  
针对ID3算法构造决策树复杂、分类效率不高问题,基于粗糙集理论提出一种决策树构造算法。该算法采用加权分类粗糙度作为节点选择属性的启发函数,与信息增益相比,能全面地刻画属性分类的综合贡献能力,并且计算简单。为消除噪声对选择属性和生成叶节点的影响,利用变精度粗糙集模型对该算法进行优化。实验结果表明,该算法构造的决策树在规模与分类效率上均优于ID3算法。  相似文献   

15.
针对传统属性约简算法利用等价关系计算过程繁琐,样本集较大时运行时间长的问题,提出一种利用模糊欧氏距离的快速属性约简算法.定义模糊欧氏距离计算属性间距离;应用层次商空间结构构建约简粒层空间;以粒层空间聚类结果作为约简基础,实现样本集属性约简.仿真结果表明,该算法约简速度不受样本集样本数量限制,运算速度较快,能够在不删除样...  相似文献   

16.
针对朴素贝叶斯算法存在的三方面约束和限制,提出一种数据缺失条件下的贝叶斯优化算法。该算法计算任两个属性的灰色相关度,根据灰色相关度完成相关属性的联合、冗余属性的删除和属性加权;根据灰色相关度执行改进EM算法完成缺失数据的填补,对经过处理的数据集用朴素贝叶斯算法进行分类。实验结果验证了该优化算法的有效性。  相似文献   

17.
彭兴媛  刘琼荪 《计算机应用》2011,31(11):3072-3074
朴素贝叶斯(NB)分类算法虽是一种简单且有效的分类方法,但其条件属性独立性假设忽略了属性变量间存在的相关性。考虑到条件独立性假设对分类效果的影响,提出一种新的将条件属性进行聚类的分组技术,不仅避免了传统朴素贝叶斯算法假设各条件属性间独立的这一缺陷,而且反映出了在不同类别情况下条件属性间具有的不同依赖程度。经过对UCI的几个数据集的仿真实验,结果表明了新算法的有效性。  相似文献   

18.
约束高斯分类网研究   总被引:1,自引:0,他引:1  
王双成  高瑞  杜瑞杰 《自动化学报》2015,41(12):2164-2176
针对基于一元高斯函数估计属性边缘密度的朴素贝叶斯分类器不能有效利 用属性之间的依赖信息和使用多元高斯函数估计属性联合密度的完全贝叶斯分类器 易于导致对数据的过度拟合而且高阶协方差矩阵的计算也非常困难等情况,在建立 属性联合密度分解与组合定理和属性条件密度计算定理的基础上,将朴素贝叶斯分类 器的属性选择、分类准确性标准和属性父结点的贪婪选择相结合,进行约束高斯 分类网学习与优化,并依据贝叶斯网络理论,对贝叶斯衍生分类器中属性为类提供 的信息构成进行分析.使用UCI数据库中连续属性分类数据进行实验,结果显示,经过 优化的约束高斯分类网具有良好的分类准确性.  相似文献   

19.
Medical applications on cardiovascular disease (CVD) for hybrid computing models are an emerging research area. The CVD, including stroke, hypertension, and high cholesterol, is one of 10 leading causes of death in Taiwan in middle-aged and elderly; in particular, the CVD has become the top killer in advanced countries. Thus, this serious but interesting issue triggers the study to focus on patients of the CVD. The study explores variables, influencing cardiovascular functions for four risk factors of blood pressure, blood glucose, blood fat, and kidney diseases, in the middle-aged and elderly. By the data collection of regular physical examination system from a regional hospital, the original dataset contains 52 variables collected from October 2011 to February 2014. We model a hybrid knowledge-based classification system to organize expert experiences, integrated linear and nonlinear attribute selection methods, data discretization of smart expert method, rough set theory, the LEM2 algorithm, and rule-filtering technique to classify the CVD for the early warning purpose. After data cleaning, 20 attributes with 2027 records are remained. For effectively identifying the variables of CVD subjects, this study reclassifies the above four risk diseases into three classes: no disease, 1&2 diseases, and 3&4 diseases. To verify performance of the proposed procedure, we experience an empirical experiment to compare the full 20 used attributes, the used attributes of integrated linear and nonlinear attribute selections with rule-filtering technique, and various classifiers. Conclusively, the 13 used attributes obtained from optimal accuracy become the key determinants that affect the four risk factors of the CVD. The empirical results and findings benefit doctors’ and medical institutions’ early medical recommendations and treatments with the advantages of significantly reducing morbidity of CVD.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号