首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
在分析已有不完备信息熵的基础上,提出一种基于相似关系的不完备信息熵,并证明该信息熵的若干性质.给出一个不完备数据特征选择算法,算法以改进的不完备信息熵作为特征选择准则,直接对不完备数据的特征进行熵值分析,并采用顺序前向浮动选择方法解决特征间的相关性问题.最后在UCI实测数据集上的实验表明,文中算法具有更高的准确率和更快的特征选择速度.  相似文献   

2.
3.
针对混合不完备数据集,提出了一种新型双邻域粗糙集分类方法。首先,定义一个无参数的邻域联系度距离,并建立基于无参数邻域联系度距离的双邻域粗糙集模型;其次,基于所构建的模型,给出基于覆盖约简的双邻域粗糙集规则约简方法,获得约简后的上近似规则集和下近似规则集;再次,基于约简后的上、下近似规则集,给出最近邻分类方法;最后,取7个UCI公共测试集做实验分析,通过与混合距离HEOM、带参数邻域联系度距离的双邻域粗糙集分类方法对比,结果表明提出的分类方法仍然取得了优异的分类效果,其突出的优势是不再需要通过大量实验来确定其参数值。  相似文献   

4.
面向大规模的数据进行知识约简是近年来粗糙集理论研究的热点。传统不完备信息系统的知识约简是假设在初始时将所有需要处理的数据一次性地装入内存中,这明显不适合处理海量数据,更不适合处理含有缺失信息的海量数据。为此,深入剖析了带有缺失信息的数据特征,把缺失属性的值用该属性所有可能的取值表示,并结合知识约简算法中的可并行性,从属性(集)的可辨识性和不可辨识性出发,并在MapReduce框架下设计了可用来处理不完备信息系统的知识约简算法。实验结果表明,该算法是有效可行的,能够对不完备信息系统中的海量数据进行知识约简。  相似文献   

5.
多标记数据的特征选择是机器学习和数据挖掘领域的重要研究内容,当前对于多标记数据的特征选择研究大多是针对完备性数据,但在许多应用领域中,连续型数值数据较多,且由于诊测成本和隐私保护等因素导致数据往往呈现出不完备性。为解决上述问题,提出了一种面向多标记不完备数据的特征选择算法。该算法将邻域粗糙集模型应用于多标记不完备数据的特征选择,根据邻域阈值求解多标记不完备数据的邻域粒度,并基于邻域粒度给出了度量多标记不完备数据的特征重要性准则,以此设计了面向多标记不完备数据的特征选择算法。最后,通过在Mulan数据集上的实验结果验证了算法的有效性和可行性。  相似文献   

6.
为了解决具有不完备、分类型矩阵数据集的聚类问题,同时考虑样本和类簇间的不确定关系,提出了一种面向不完备分类型矩阵数据的集对k-modes聚类算法.首先,基于集对信息粒的相关理论,定义了不完备矩阵样本间的集对距离度量方法;其次,考虑样本和类簇间的不确定关系,给出了类内平均距离的定义和判断样本是否属于多个类簇的阈值计算公式...  相似文献   

7.
现实中的信息系统往往是不完备的。处理不完备信息系统的一种常用方法是根据一定的规则对缺失的属性值予以赋值,从而将其补齐成完备的信息系统。文中提出了一种基于绝对信息量的赋值规则,根据该规则提出了补齐不完备信息系统的算法。该算法基于信息系统的内在性质,减少了数据补齐时人为引入的不确定性,因而更加合理、有效。  相似文献   

8.
一种基于粗集理论不完备数据的改进算法   总被引:10,自引:0,他引:10       下载免费PDF全文
本文在对粗集理论进入深入研究的基础上,依据决策规则独立原则,提出一种改进的ROUSTIDA算法,有效地解决了原算法可能存在的决策规则矛盾的问题,实例表此方法是行之有效的。  相似文献   

9.
基于Boosting的不平衡数据分类算法研究   总被引:2,自引:0,他引:2  
研究基于boosting的不平衡数据分类算法,归纳分析现有算法,在此基础上提出权重采样boosting算法。对样本进行权重采样,改变原有数据分布,从而得到适用于不平衡数据的分类器。算法本质是利用采样函数调整原始boosting损失函数形式,进一步强调正样本的分类损失,使得分类器侧重对正样本的有效判别,提高正样本的整体识别率。算法实现简单,实用性强,在UCI数据集上的实验结果表明,对于不平衡数据分类问题,权重采样boosting优于原始boosting及前人算法。  相似文献   

10.
黄恒秋  曾玲  黎利辉 《控制与决策》2018,33(7):1207-1214
针对混合值不完备系统,提出一种基于双邻域粗糙集模型的分类方法.首先,定义一个新的不确定距离度量函数-----联系度距离函数,进而建立基于联系度距离函数的双邻域粗糙集模型;然后,基于所建立的模型讨论该模型的属性约简算法,并给出基于属性约简、覆盖约简的双邻域粗糙集规则学习分类算法;最后,通过多个UCI 数据集进行实证分析,结果表明所提出的分类算法是客观有效的,特别是在缺失值较多的情况下,其优势更加明显.  相似文献   

11.
郑仙花  骆炎民 《计算机应用》2012,32(11):3201-3205
针对传统的克隆选择算法(CSA)只依次单独针对某一类样本数据进行监督学习从而造成分类效率和精确度不高的问题,提出一种基于改进克隆选择算法的多类监督分类算法。算法通过进化学习可以同时获得多类样本数据的最佳聚类中心,进化过程中抗体适度值的计算综合考虑各类的类内相似性和类间差异性,从而保证得到的最佳聚类中心更具代表性。后续的分类实验中,分别利用常用的4组UCI数据和红树林多光谱TM遥感图像对算法进行验证,实验结果表明遥感图像的分类总精度达到92%,Kappa系数为0.91,UCI数据分类结果也较好,证明该算法是一种有效的多类数据分类算法。  相似文献   

12.
大数据下不完备信息系统近似空间的并行算法   总被引:1,自引:0,他引:1  
上、下近似空间是粗糙理论的重要概念,解决上、下近似问题是海量数据挖掘的基础。经典的近似空间算法不适合处理海量数据,更不适合处理带缺失信息的海量数据问题。为此,通过深度分析带缺失信息的海量数据特征,结合MapReduce编程模型,提出了基于MapReduce框架下近似空间的并行算法,以处理带缺失信息的海量数据,实验结果表明了该并行算法的有效性。  相似文献   

13.
李欢  王士同 《控制与决策》2015,30(7):1207-1213
针对具有多观测样本的相似不完整数据分类问题,提出基于SVM和多观测样本的相似数据分类算法。每类数据的多观测样本集由属于同一模式的单观测样本组成,每次分类时,对两个多观测样本集的标签做两次假设,通过比较不同标签假设下的分类误差确定多观测样本集的标签。该方法同时充分利用了样本类内的相关性和类间的差异性,实现了相似不完整数据的分类。实验结果验证了所提出方法的有效性。  相似文献   

14.
特征选择(也称作属性选择)是简化数据表达形式,降低存储要求,提高分类精度和效率的重要途径。实际中遇到的大量的数据集包含着不完整数据。对于不完整数据,构造选择性分类器同样也可以降低存储要求,提高分类精度和效率。因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题。有鉴于此,提出了一种用于不完整数据的选择性贝叶斯分类器。在12个标准的不完整数据集上的实验结果表明,给出的选择性分类器不仅分类准确率显著高于非常有效地用于不完整数据的RBC分类器,而且分类性能更加稳定。  相似文献   

15.
A new approach to classification problems with incomplete information is described. The decision rule is designed considering the similarity of recognized objects. Designing a decision rule with the help of a general generalized variable is the basis of the approach. __________ Translated from Kibernetika i Sistemnyi Analiz, No. 6, pp. 116–123, November–December 2005.  相似文献   

16.
罗俊  陈黎飞 《计算机应用》2021,41(1):139-144
不完全数据,如社交平台的互动信息、互联网电影资料库中的影评内容,广泛存在于现实生活中.而现有情感分类模型大多建立在完整的数据集上,没有考虑不完整数据对分类性能的影响.针对上述问题提出基于BERT的栈式降噪神经网络模型,用于面向不完全数据的情感分类.该模型由栈式降噪自编码器(SDAE)和BERT两部分组成.首先将经词嵌入...  相似文献   

17.
不确定数据的决策树分类算法   总被引:5,自引:0,他引:5  
李芳  李一媛  王冲 《计算机应用》2009,29(11):3092-3095
经典决策树算法不能处理树构建和分类过程中的不确定数据。针对这一局限,将可用于不确定数据表达的证据理论与决策树分类算法相结合,把决策树分类技术扩展到含有不确定数据的环境中。为避免在决策树构建过程中出现组合爆炸问题,引入新的测量算子和聚集算子,提出了D-S证据理论决策树分类算法。实验结果表明,D-S证据理论决策树分类算法能有效地对不确定数据进行分类,有较好的分类准确度,并能有效避免组合爆炸。  相似文献   

18.
详细介绍了国内外集成分类算法,对集成分类算法的两个部分(基分类器组合和动态更新集成模型)进行了详细综述,明确区分不同集成算法的优缺点,对比算法和实验数据集。并且提出进一步的研究方向和考虑的解决办法。  相似文献   

19.
范玉宏 《信息与控制》2005,34(6):733-736
受智能进化理论的启发,集成现有的免疫算法,加入更高的智能层次上新的免疫机制,建立了一个人工免疫系统的整体多层次架构.首先,从智能进化的角度说明基于整体免疫系统信息处理机制的算法具有更高的“计算”能力.然后,就一种新的基于人工免疫系统整体架构的数据分析算法,介绍了试验结果,并对结果进行了讨论.最后,笔者指出,人工免疫系统整体架构不仅可以提高现有算法的效率,而且可以扩展人工免疫系统的应用领域.  相似文献   

20.
基于不完全数据的TAN学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
TAN算法是一种针对复杂数据且在实际中具有极强的学习能力的有效算法,它已被广泛应用于数据挖掘、机器学习和模式识别领域。由于现实世界中的数据大多是不完全数据,研究了怎样使TAN有效地从不完全数据中学习。首先,用一种有效的方法直接从不完全数据中估计条件互信息,然后应用估计条件互信息法去扩展基本的TAN算法来处理不相关数据,最后实验比较了扩展的TAN算法和基本的TAN算法。实验结果表明,在大多数不完全数据集合上扩展的TAN算法精确性明显高于基本的TAN算法。虽然扩展的TAN算法时间复杂度高于基本的TAN算法,但在可接受范围之内。此估计条件互信息的方法能够容易地和其它技术相结合来进一步提高TAN算法的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号