首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 492 毫秒
1.
从概率密度函数的角度出发,利用Parzen窗法估计总体样本的概率密度分布,将核方法和Parzen窗法引入最大后验概率方法中,提出一种基于Parzen核估计的最大后验概率的高性能多分类方法。该方法不需要考虑样本数据的具体分布情况,能够得到分类的可信度,给出推理的不确定性依据。在3个国际标准UCI数据集和3个人脸数据集上的实验结果表明,该方法具有较好的分类效果。  相似文献   

2.
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法.在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样.基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结果表明,该算法能够有效提升文本不平衡数据集的准确率和F1值,较好解决了不平衡文本数据集分类问题.  相似文献   

3.
Web文本分类是采用文本分类技术将Web上的信息进行自动分类,使用户能够快速找到自己想要的资源。文本分类的过程中,将特征提取之后的来自Web的数据分成样本数据集和测试数据集,将样本数据集输入到RBF网络中进行训练,RBF网络经过训练之后,输入测试数据集中的数据进行验证,实验证明,RBF网络取得了较好的分类结果。  相似文献   

4.
文本分类领域的困难,在于如何获得大量人工标记好的分类样本数据集,Medline数据库在专家的长期维护下,具有完善的基于MeSH(Medical Subject Headings)的分类体系,以及大量的文摘,可用来制作分类样本数据集。本文介绍和研究Medline数据库,提出如何利用它构建良好的分类模型,实验表明,利用Medline文摘数据库,通过Major标记,特征项数目采用5000,训练样本采用600,利用SVM分类器,可得较好的分类模型,从而为文本分类研究提供一种实用、高效的数据集制作方式。  相似文献   

5.
传统的分类算法大都默认所有类别的分类代价一致,导致样本数据非均衡时产生分类性能急剧下降的问题.对于非均衡数据分类问题,结合神经网络与降噪自编码器,提出一种改进的神经网络实现非均衡数据分类算法,在神经网络模型输入层与隐层之间加入一层特征受损层,致使部分冗余特征值丢失,降低数据集的不平衡度,训练模型得到最优参数后进行特征分类得到结果.选取UCI标准数据集的3组非均衡数据集进行实验,结果表明采用该算法对小数据集的分类精度有明显改善,但是数据集较大时,分类效果低于某些分类器.该算法的整体分类效果要优于其他分类器.  相似文献   

6.
近年来,栈式自编码网络(stacked auto-encoder,SAE)在大规模数据集上表现出优异的图像分类性能。相对于其他图像分类方法中手工设计的低级特征,SAE的成功归因于深度网络能够学习到丰富的中级图像特征。然而,估计上百万个网络参数需要非常庞大的带标签的图像样本数据集。这样的性质阻止了SAE在小规模训练数据上的许多应用。在这篇文章中,提出的算法展示如何将SAE在大规模数据集上学习到的图像表示有效地迁移到只有有限训练数据的视觉识别任务中。实验部分设计了一个方法来复用在MNIST数据集上训练得到的隐藏层,以此计算在MNIST-variations数据集上的中级图像表示。实验结果展示了尽管两个数据集之间存在差异,但是被迁移的图像特征能够使得模型的分类性能得到极大的提升。  相似文献   

7.
集成多个传感器的智能片上系统( SoC)在物联网得到了广泛的应用.在融合多个传感器数据的分类算法方面,传统的支持向量机( SVM)单分类器不能直接对传感器数据流进行小样本增量学习.针对上述问题,提出一种基于Bagging-SVM的集成增量算法,该算法通过在增量数据中采用Bootstrap方式抽取训练集,构造能够反映新信息变化的集成分类器,然后将新老分类器集成,实现集成增量学习.实验结果表明:该算法相比SVM单分类器能够有效降低分类误差,提高分类准确率,且具有较好的泛化能力,可以满足当下智能传感器系统基于小样本数据流的在线学习需求.  相似文献   

8.
网络作弊检测是搜索引擎的重要挑战之一,该文提出基于遗传规划的集成学习方法 (简记为GPENL)来检测网络作弊。该方法首先通过欠抽样技术从原训练集中抽样得到t个不同的训练集;然后使用c个不同的分类算法对t个训练集进行训练得到t*c个基分类器;最后利用遗传规划得到t*c个基分类器的集成方式。新方法不仅将欠抽样技术和集成学习融合起来提高非平衡数据集的分类性能,还能方便地集成不同类型的基分类器。在WEBSPAM-UK2006数据集上所做的实验表明无论是同态集成还是异态集成,GPENL均能提高分类的性能,且异态集成比同态集成更加有效;GPENL比AdaBoost、Bagging、RandomForest、多数投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值。  相似文献   

9.
针对现有的智能变电站过程层网络故障分类所面临的效率低下、数据集噪音等问题,提出一种基于ANP-SVM的过程层网络故障分类算法。该算法首先利用改进的分离间隔法对SVM进行核参数以及误差参数的优化选取,然后将经过抗噪声处理的样本数据输入优化后的SVM,从而使得分类更加精确、高效。实验结果表明,本算法在过程层网络故障分类中具有较好的性能。  相似文献   

10.
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。  相似文献   

11.
基于样本投影分布的平衡不平衡数据集分类*   总被引:2,自引:0,他引:2  
提出一种平衡不平衡数据集统一分类方法,首先得到训练样本基于支持向量机(SVM)超平面法线方向上的投影;再借助支持向量数据描述(SVDD)对训练样本投影分布进行描述;测试样本在此基础上实现分类。平衡或不平衡数据集都可采用相同的方法进行分类。实验表明该方法能够同时对平衡或不平衡数据集进行有效的分类。  相似文献   

12.
基于迁移学习的径向基函数神经网络学习   总被引:1,自引:0,他引:1  
现实场景中存在很多小样本量数据集而且多有失真,传统神经网络在处理这类数据时泛化能力较差,不能达到预测数据或分类的目的。迁移学习可通过学习数据集A有用的知识对与其相关但不同正态分布的小样本数据集B进行辅助学习,因此提出了具有迁移学习能力的神经网络,以实现更好的分类或逼近效果。以基于ε-不敏感准则和结构风险的径向基神经网络(RBF)为基础构造了迁移径向基神经网络(T-RBF-NN)。通过加噪音数据集实验以及真实数据集实验验证加入迁移学习的神经网络在小样本情况下比传统神经网络具有更好的泛化性和鲁棒性。  相似文献   

13.
介绍了处理多元有序数据的定向判别分析新方法原理、建模流程、应用流程及其在沉积化学中的应用实例。这种判别分析将分类建模与判别归类分开,求解与专业知识结合。新方法用多组或逐步判别分析对多元有序数据建模,应用时根据应用领域的知识对样本归属作初步定向,然后选择模型的相关局部进行判别归类,从而实现有序判别。这种方法用于解决由于时间序列多元数据周期性造成的样本分类颠倒问题。在塔里木盆地沉积岩时间序列化学数据的应用实例中,解决了石油井下地层预测和归类问题。  相似文献   

14.
针对实际人脸图像含有的噪声模型常常表现出的非高斯特性, 该非高斯特性具有较厚重的拖尾现象, 提出一种基于多元混合高斯分布的多分类人脸识别方法。该方法将多元混合高斯分布、核函数、概率密度函数估计中的参数估计以及贝叶斯理论结合起来, 能对含有重尾噪声的人脸图像有较高的识别率。用ORL标准人脸库进行验证, 实验结果表明了可行性。  相似文献   

15.
张希翔  李陶深 《计算机应用》2012,32(8):2202-2274
传统的多元回归分析方法可以对缺失数据进行预测填补,但它在构造回归方程时存在自变量形式较为固定、单一等不足。为此,提出一种基于启发式构元的多元回归分析方法,通过贪婪算法找出现有变量的优化组合形式,选取若干新构变量进行回归分析,从而得到更好的拟合优度。通过对案例中小麦茎秆机械强度缺失数据信息进行仿真计算和评估,证实了方法的有效性。算例结果表明该方法运用在缺失数据预测中拥有较好的精准性。  相似文献   

16.
结合信息可视化与机器学习技术,提出一种基于多元数据平行坐标图表示的贝叶斯可视化分类方法。该方法基于类条件概率密度估计对平行坐标图表示进行优化,最后对变换后的各变量值加权求和,用贝叶斯法则分类。这种方法通过平行坐标来使不可见的数据和算法变得可见,从而易于利用专家领域知识,分类结果容易理解,特别适合应用到疾病诊断等医学领域的模式识别问题。  相似文献   

17.
电力工控系统数据在时间维度上具有周期性,但其时间序列呈现多元高斯分布特性且周期长度不固定,这导致通过相似性度量来发现异常难以进行。针对上述问题,文章提出一种基于多元高斯聚类的电力工控系统异常时序检测方法。该方法首先获取电力工控系统流量数据,对其采用多元高斯分布混合算法实现时间序列的符号化,然后利用马尔可夫链从长度不固定的时间序列中提取出大小一致的状态转移概率矩阵作为数据特征,最后通过层次聚类方法计算样本的异常率实现异常检测。经实验分析表明,文章方法可以有效实现电力工控系统时序数据周期长度不同下的异常自动检测。  相似文献   

18.
针对传统分类算法对维吾尔文文本分类准确率不高的问题,提出了一种基于深度置信网络的维吾尔文短信文本分类模型。深度学习模拟人脑的多层次结构,对数据从低层到高层逐渐地进行特征提取,深层挖掘数据集的分布规律,从而提高分类准确性。通过逐层无监督的方法完成深度置信网络的初始化,并结合softmax回归分类器实现文本的分类。最后在收集的维吾尔文短信数据集上进行实验论证。实验结果表明,相比KNN、SVM和决策树算法,深度置信网络具有更好的分类效果,准确率更高。  相似文献   

19.
粗糙集在心电图分类诊断中的应用   总被引:2,自引:0,他引:2  
心电图是诊断心血管疾病的重要依据,论文提出了基于粗糙集的多变量决策树在分类诊断中的应用,并以窦性心率失常为例创建了多变量决策树,得到相应的分类规则。使用实际数据进行测试的结果表明,可以有效、快速地进行心率失常病例判别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号