首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
不均衡数据分类是数据挖掘领域的一个难点问题,对多数类样本进行降采样可简单且有效地解决不均衡数据处理面临的两大核心问题,即如何从数类占绝对优势的数据集合中最大程度地挖掘少数类信息;如何确保在不过度损失多数类信息的前提下构建学习器.但现有的降采样方法往往会破坏原始数据结构特性或造成严重的信息损失.本研究提出一种基于分层抽样的不均衡数据集成分类方法 (简记为EC-SS),通过充分挖掘多数类样本的结构信息,对其进行聚类划分;再在数据块上进行分层抽样来构建集成学习数据成员,以确保单个学习器的输入数据均衡且保留原始数据的结构信息,提升后续集成分类性能.在不均衡数据集Musk1、Ecoli3、Glass2和Yeast6上,对比EC-SS方法与基于随机抽样的不均衡数据集成分类方法、自适应采样学习方法、基于密度估计的过采样方法和代价敏感的大间隔分类器方法的分类性能,结果表明,EC-SS方法能有效提升分类性能.  相似文献   

2.
为了处理大规模数据和不平衡数据分类问题,提出了一种新的分类方法,利用基于最大夹角间隔的核心集向量机算法实现对大样本数据的分类;针对不平衡数据分类问题,通过对不同的样本给予不同的权重,来提高算法的分类性能。加权最大夹角间隔核心集向量机方法不仅能够有效地解决不平衡数据的分类问题,而且能够实现对大样本数据的快速训练。  相似文献   

3.
讨论了基于样本最大分类信息的改进划分熵的若干性质 ,并对Bezdek提出的划分熵、基于样本最大分类信息的改进划分熵、划分熵的归一化形式的分类性能进行了比较实验。结果表明归一化形式的分类性能是最好的。  相似文献   

4.
用投影寻踪方法建立准确的定量构性关系模型   总被引:1,自引:0,他引:1  
用投影寻踪的方法搜寻理想的投影方向,以便使高维数据降维而发现数据中化合物的分类信息。并利用这样的分类信息对样本进行分类建模,取得了理想的结果。  相似文献   

5.
基于分类语义的Web信息检索系统   总被引:2,自引:0,他引:2  
在海量数据空间中快速、准确地获取用户所需Web信息成为检索系统研究的焦点.将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题。设计一个基于分类语义的搜索引擎系统——SESC系统.通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使得用户快捷地从WWW上获取所需信息.  相似文献   

6.
针对快速存储器(QAR)数据特征提取问题,首先给出适用于一类分类的最大间隔判别分析方法,并通过增加正交约束,给出适用于一类分类的最大间隔特征提取算法;在此基础上,针对QAR数据大样本的特性,给出正交约束的一类分类问题的最大间隔判别分析问题的修改形式,并将该修改形式转化为闭包球问题,进而给出了基于正交约束闭包球的最大间隔QAR数据特征提取方法,通过实验表明该方法对某一机型的飞行纪录数据取得了良好的实验结果,有效解决了QAR数据大样本特征提取的问题.  相似文献   

7.
在增强线性判别分析和类依赖线性判别分析的基础上,提出了类依赖增强线性判别分析算法,对多模态数据进行分类.算法利用增强线性判别分析的局部信息保持能力,在不破坏多模态局部结构的前提下,对数据进行降维;然后采用最大散度差线性鉴别分析准则对每一类样本获取一个投影矩阵,从而获取不同类的样本分布的特征差异.在人脸数据库上进行实验验证,结果表明,该算法的分类效果好。  相似文献   

8.
针对数据对象在数据流中的频繁度变化趋势的预测问题,提出基于最大最小频率时间窗模型的最大最小频繁趋势预测算法(MM-FTP).设计一种新的最大最小频繁模式树结构(MMFP-Tree),存储数据流概要信息;提出一种新的数据对象频繁度变化趋势衡量指标--频繁度变化率(FCR),定量地对数据对象的频繁度变化趋势进行描述.该算法同样能够对数据流分类置信度变化趋势及传统的指数变化趋势进行有效预测.结果表明,在真实的网络点击数据流上,该算法能够快速准确地预测数据对象的频繁度变化趋势.  相似文献   

9.
在高光谱图像分类问题中,提取能够有效表达地物特征的信息是分类方法中的关键问题。为了提高高光谱图像分类精度,提出一种基于深度玻尔兹曼机的高光谱图像分类方法。该方法首先对高光谱图像数据进行主成分分析法白化处理,并提取像元的空域信息,与像元光谱信息组成综合的谱-空域信息;然后通过多层深度玻尔兹曼机模型从像元的谱-空域信息中提取深层次类别特征;最后通过逻辑回归模型对所提取特征进行分类。这种深度玻尔兹曼机模型能够利用数据的先验知识对高维数据进行特征提取,并且所提取的特征内在地表示了地物的空间结构和光谱特征。实验结果表明,这种方法能够有效地提高高光谱图像的分类精度。  相似文献   

10.
小波分解图像数据的矢量量化   总被引:2,自引:0,他引:2  
文章在对小波分解图像数据特性讨论的基础上提出了一种新的数据压缩编码方案,该方案利用小波分解后各子带数据之间的相关性,使用基带数据检测实现对其它子带数据的分类和提供分类数据的位置信息,通过对分类数据进行分类矢量化,实现数据的高效压缩的获得较好的恢复图像。  相似文献   

11.
提出了一种基于免疫进化模糊聚类算法的电网抗差状态估计方法。该方法首先计算出量测数据的标准残差h和相邻采样时刻量测值之差位,初步将量测数据划分为可疑数据和可靠数据。分别在0.5~1和1~1之间随机生成可靠数据和可疑数据的隶属度,形成初始分类矩阵,克服了整个分类矩阵在0-1之间随机生成的缺陷,并大大加快了算法的收敛速度。之后以rN和△z为特征值,应用免疫进化算法对分类矩阵进行模糊聚类,以获得各个量测量的良数据隶属度。依据各个量测量的良数据隶属度,进一步将量测数据划分入淘汰区、降权区、保权区进行状态估计。该方法能获得较高的抗差能力和状态估计精度,且数值稳定性较好。对IEEE14节点系统的算例仿真表明了该方法的有效性。  相似文献   

12.
红外图像成像模糊、易受噪声污染,分辨率低,采用标准的FCM分割算法会出现失效和误分割。通过对以往各种方法的研究,根据红外图像的特点及FCM算法的不足,提出采用在NSCT变换域进行去噪预处理与改进的FCM算法相结合的分割算法。首先对红外图像进行NSCT变换,在变换域,采用自适应阈值法去除各细节子带中的噪声,其次在FCM算法中引入核映射将数据映射到非线性空间中进行聚类划分,最后采用邻域信息修正当前像素的隶属度值,得到更准确的聚类结果。实验结果证明该算法较FCM、KFCM、SFCM聚类分割算法有更好的分割精度。  相似文献   

13.
CRM中的模糊C均值(FCM)客户聚类算法研究   总被引:4,自引:0,他引:4  
客户关系管理(CRM)中的客户聚类分析是一个新的研究领域,属于数据挖掘的应用范畴.CRM利用数据挖掘技术发现客户数据背后隐藏的、有用的、未曾预料的知识.包括利用聚类方法划分顾客类别.本文提出用模糊C均值(FuzzyC Means,FCM)聚类算法作为客户聚类的方法,得到不同客户群的聚类中心以及客户的隶属度矩阵,为客户群的特征分析提供了量化依据.并采用Matlab6.1为计算工具,最后给出了一个聚类分析实例.实验证明,本文采纳的方法可以得到满意的客户聚类结果.  相似文献   

14.
针对目前针织用纱质量没有统一评价标准的问题,应用CTT(Constant Tension Transport)测试系统,选取测试了几个有代表性的指标对纱线性能进行客观的综合评价.文章构建了样本隶属函数,用迭代的方法得到最优模糊划分系数,以最大隶属度原则对样本进行分类,最后应用F统计量和聚类有效性函数值来分别检验分类的合理性和聚类的有效性.这种模糊划分评价方法有效减少了人为因素的影响,为纱线的定量评价提供了方法.  相似文献   

15.
Fuzzy综合评价模型在京杭大运河扬州段水质评价中的应用   总被引:3,自引:0,他引:3  
建立了一种新的水质综合评判模型--Fuzzy综合评价模型,并应用于京杭大运河扬州段的水质综合评价中.以模糊概率理论为基础,求出污染因子对于水质级别的隶属函数,将各个污染因子的隶属度与权重向量进行复合运算,所得隶属度最大的级别即为水质级别.在9项评价指标中,溶解氧、高锰酸盐指数、5日生化需氧量和氨氮4项权重较大,说明水体中污染物主要为有机污染物.2001-2006年间,京杭大运河扬州段整体水质状况为:2004年Ⅱ级水质,其余为Ⅲ级或Ⅲ级以上,所得结论与实际相符.与其它评价方法相比,模糊综合评价模型具有系统性、综合性和评价结果的可比性,并克服了权重难以分配和分级界限的模糊性的不足,可应用于水质评价指标众多、评价等级较多的复杂系统.  相似文献   

16.
提出一种利用ATLAS转换语言接收转换信号的模型转换框架,当平台无关模型(Platform Independent Model,PIM)向平台相关模型(PlatformSpecialize Model,PSM)转换时,利用ATLAS转换语言对发出的信号进行模型转换判断,属于模型转换信号则执行信号任务,否则进行可行性判断,若为可行信号,则返回入口处等待接收新信号,若为不可行信号,则向数据库报告并将不可行信号写入日志。  相似文献   

17.
矿业投资是一种风险投资,评价过程中存在很多不确定性和模糊性。采用基于熵的数据挖掘方法,通过挖掘隐藏在各指标隶属度中关于目标分类的知识信息,厘清目标分类与指标隶属度之间的关系,通过定义指标区分权清除指标隶属度中对目标分类的冗余值,提取有效值计算目标隶属度。新的隶属度转换算法经过"一有效、二可比、三合成"三个计算步骤,简记为M(1,2,3),由此构建隶属度转换新算法并用于矿业投资决策模糊评价中。实例分析表明,判定结果较为理想,具有较高的置信度。  相似文献   

18.
基于LS-SVM与模糊补准则的特征选择方法   总被引:3,自引:3,他引:0  
针对传统特征选择算法采用单一度量的方式难以兼顾泛化性能和降维性能的不足,提出新的特征选择算法(least squares support vector machines and fuzzy supplementary criterion, LS-SVM-FSC)。通过核化的最小二乘支持向量机(least squares support vector machines, LS-SVM)对每个特征的样本进行分类,使用新的模糊隶属度函数获得每个样本对其所属类的模糊隶属度,使用模糊补准则选择具有最小冗余最大相关的特征子集。试验表明:与其他10个特征选择方法与7个隶属度决定方法相比,所提算法在9个数据集上都具有很高的分类准确率和很强的降维性能,且在高维数据集中的学习速度依然很快。  相似文献   

19.
对J C .Bezdek提出的划分系数 ,基于样本最大分类信息的改进划分系数 ,以及二者的归一化形式的分类性能进行了实验分析 ,结果表明 ,归一化处理的分类性能有明显提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号