首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
为了提高不平衡数据集中少数类的分类准确率,文章对组合分类算法进行了研究,提出了一种新的组合分类算法WDB.该算法采用决策树C4.5和朴素贝叶斯两种不同的分类器作为基分类器,选择精确度(precision)作为权值,根据不同的训练集,通过"权值学习"的方式自动调整各基分类器的权值大小,然后,结合各基分类器的预测结果,利用加权平均法进行代数组合,构造出一种新的分类算法WDB.最后,以开放的不平衡数据集作为数据源,利用常见的性能评价指标进行实验验证.实验结果证明,在组合分类算法中引入"权值学习"能够发挥基分类器对于特定数据类型的分类优势,提高预测结果的准确率.WDB算法对不平衡数据集分类的性能优于决策树C4.5算法、朴素贝叶斯算法及随机森林算法,能够有效提升不平衡数据集中少数类的分类准确率.  相似文献   

2.
集成学习逐渐成为机器学习的研究热点。针对决策树C4.5集成算法中基分类器多样性差的问题,提出了修正矩阵Correction Matrix –C4.5(CMC4.5)集成学习算法,并将其应用于图像自动标注。算法首先对特征子集进行多样性处理,然后通过构造修正矩阵依次得到基分类器C4.5全新训练数据集,实现训练数据集之间的多样性和属性特征完整性,完成集成算法。对比实验表明,CMC4.5集成学习方法大大提高了分类准确率。将CMC4.5集成学习与图像标注相结合,实现了基于CMC4.5的图像自动标注。  相似文献   

3.
为优化针对非均衡数据的分类效果,结合犹豫模糊集理论与决策树算法,提出一种改进的模糊决策树算法。通过SMOTE算法对非均衡数据进行过采样处理,使用K-means聚类方法获得各属性的聚类中心点,利用2种不同的隶属度函数对数据集进行模糊化处理。在此基础上,根据隶属度函数和犹豫模糊集的信息能量求得各属性的犹豫模糊信息增益,选取最大值替代Fuzzy ID3算法中的模糊信息增益作为属性的分裂准则,构建一个用于非均衡数据分类的犹豫模糊决策树模型。实验结果表明,基于犹豫模糊决策树的分类器在AUC评价指标上相对于C4.5、KNN、随机森林等传统分类算法平均提高了12.6%。  相似文献   

4.
阐明决策树分类器在用于分类的数据挖掘技术中依然重要,论述基于决策树归纳分类的ID3、C4.5算法,并且对决策属性的选取法则进行说明。通过实例解析ID3、C4.5算法实现过程,结果表明C4.5算法相比较于ID3算法的优越性.尤其在处理具有多属性值的数据时的更加合理和正确。  相似文献   

5.
针对决策树C4.5算法处理小规模缺失数据以及二义性数据时不稳定、效率低,以及在分裂节点时条件属性之间关系的问题,提出了一种在决策树C4.5算法与朴素贝叶斯算法结合的基础上,引入Fleiss’ Kappa系数的改进算法,从而解决了C4.5算法在处理小规模缺失数据、二义数据效率低以及条件属性之间相关性的问题。通过理论分析和在标准UCI数据集实验结果表明,该算法在牺牲一定执行效率的基础上,分类精度得到明显的提高。  相似文献   

6.
在基于C4.5算法的网络流量分类方法中,网络流量数据量的海量性及其特征的多样性使得决策树的构建速度、分类速度成为评价网络流量分类器的重要标准。在原C4.5算法的基础上提出一种改进的信息熵的计算方法,通过减少计算函数的复杂度,提高决策树的构建速度。实验表明,基于改进后算法的分类器在达到原有分类准确率的同时,极大地缩短了决策树的构成时间。  相似文献   

7.
决策树算法的优化研究   总被引:2,自引:0,他引:2       下载免费PDF全文
针对决策树C4.5/5.0分类算法及改进的算法在创建决策树时训练误差率和校验误差率相对较高的缺点,提出一些改进策略,即利用属性相关性进行属性约简与度量以达到解决属性集合中的冗余属性,采用一定置信度值进行决策树的修剪,采用优化的Chi2算法更合理更准确地对连续属性进行离散化,基于改进策略设计并实现一个分类器,将改进的算法应用于Breast-cancer实例,实验结果证明改进的算法生成的决策树具有较高的分类正确率。  相似文献   

8.
决策树分类算法C4.5中连续属性过程处理的改进   总被引:1,自引:1,他引:0  
决策树分类算法C4.5是数据挖掘中最常用、最经典的分类算法。但是C4.5算法也存在一些不足之处,针对C4.5算法处理连续属性比较耗时的特点,本文对连续的处理过程进行改进,以提高算法的计算效率。改进的C4.5算法与原C4.5算法相比,在构造决策树时具有相同的准确率和更高的计算速度。  相似文献   

9.
随着移动互联网应用的不断普及,移动终端承载了大量的数据交互业务与应用,移动数据的安全问题日益凸显。基于C4.5决策树算法对移动数据进行文本分类检测,实现恶意代码分析。传统的C4.5文本分类模型中,测试属性选择未考虑属性之间的影响,因此提出了一种改进的基于Boosting算法的C4.5决策树文本分类模型。该模型在衡量被测属性最优弱假设的重要性时,引入Boosting的权重系数,每次迭代计算结束后,自适应调整权重值,在降低特征子集属性冗余度的同时,提高了分类模型的鲁棒性。实验结果表明,改进的文本分类模型在检测率和分类准确率上均有一定程度的提高。  相似文献   

10.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

11.
Consider a binary image containing one or more objects. A signed distance transform assigns to each pixel (voxel, etc.), both inside and outside of any objects, the minimum distance from that pixel to the nearest pixel on the border of an object. By convention, the sign of the assigned distance value indicates whether or not the point is within some object (positive) or outside of all objects (negative). Over the years, many different algorithms have been proposed to calculate the distance transform of an image. These algorithms often trade accuracy for efficiency, exhibit varying degrees of conceptual complexity, and some require parallel processors. One algorithm in particular, the Chamfer distance [J. ACM 15 (1968) 600, Comput. Vis. Graph. Image Process. 34 (1986) 344], has been analyzed for accuracy, is relatively efficient, requires no special computing hardware, and is conceptually straightforward. It is understandably, therefore, quite popular and widely used. We present a straightforward modification to the Chamfer distance transform algorithm that allows it to produce more accurate results without increasing the window size. We call this new algorithm Dead Reckoning as it is loosely based on the concept of continual measurements and course correction that was employed by ocean going vessel navigation in the past. We compare Dead Reckoning with a wide variety of other distance transform algorithms based on the Chamfer distance algorithm for both accuracy and speed, and demonstrate that Dead Reckoning produces more accurate results with comparable efficiency.  相似文献   

12.
蔺宏伟  王国瑾 《计算机学报》2003,26(12):1645-1651
距离变换是图像处理中历史悠久的研究课题.该文将二维带符号的欧氏距离变换推广到三维,对其进行了优化,分析了它的计算复杂度,并应用于解决计算机图形学中的两个重要问题:第一,将图形对象的三角网格表示转换为它的距离场表示.即首先将三角网格模型离散为体素表示,利用三维带符号的距离变换,将求空间一点到图形对象的最短距离的全局搜索过程,转化为求这一点到离它最近的特征体素所包含的图形对象部分的局部搜索过程;第二,利用类似的思想,求两张空间曲面之间的最短距离.  相似文献   

13.
软硬件测试中预确定距离测试   总被引:1,自引:0,他引:1  
在随机测试的基础上提出了VLSI电路测试中的一个新概念,即预确定距离测试.随机测试广泛应用于软硬件测试中已经有多年了.众所周知,随机测试中每个测试码都是随机选取的而不管它是否与先前生成的测试码重复.尽管由于测试码选取的随机性使得随机测试并不是十分有效,但是对它作了一些实质性修改从而大大提高了它的测试效率.在预确定距离测试中,总是选择总距离最大的测试码来进行测试,以便使得该测试码所检测到的故障与先前的测试码所检测到的故障尽可能地不同.还详细介绍了构造一个预确定距离测试序列的生成算法,并将其应用到软件测试中.最后,从基准电路上获得的实验结果以及从理论上的分析也表明这种新方法的有效性.  相似文献   

14.
一种人脸表情分类的新方法——Manhattan距离   总被引:2,自引:0,他引:2  
提出了一种利用Manhattan距离进行人脸表情分类的新方法。Manhattan距离计算出具有不同模式的两个对象的距离更大。在实验中,比较了Manhattan距离、欧氏距离、余弦距离在人脸表情分类中的性能,得出Manhattan距离比另外两类距离有着更好的识别效果。  相似文献   

15.
邬晟峰  吴悦  徐拾义 《计算机科学》2014,41(5):50-54,63
对超大规模集成电路进行随机测试的测试码之间的距离作了定量分析,在此基础上,改进了最大距离随机测试算法中测试码的生成方法,使得所生成的伪随机测试码集合同时达到最大海明距离与近似最大笛卡尔距离。因此每一个测试码可以尽可能多地独立检测到更多不重复的故障。进而提出了准完全最大距离测试新算法的思想和构建理论,并详细阐述了该算法的执行流程。在ISCAS'85基准电路上进行的大量实验数据分析表明,本方法确实有效地提高了随机测试效率,降低了随机测试成本。  相似文献   

16.
点到任意多面体距离的快速计算方法   总被引:3,自引:0,他引:3  
提出了一种快速计算空间点到任意多面体的有符号距离的方法,该方法以空间点为中心,采用动态搜索技术,能够快速准确地获得一个含多面体最近体元素在内的候选面片集,而且在一般情况下该候选集都足够小,从而对计算空间点到复杂多面体的最近距离起到明显的加速作用,与采用层次结构表示的方法相比,此方法避免了频繁计算点到各层次结构的距离,本算法可应用在需大量距离计算的环境,如距离场计算、虚拟环境下的碰撞检测,机器人运动规划及数据控加工过程的干涉检查等。  相似文献   

17.
This paper investigates how social distance can serve as a lens through which we can understand human–robot relationships and develop guidelines for robot design. In two studies, we examine the effects of distance based on physical proximity (proxemic distance), organizational status (power distance), and task structure (task distance) on people׳s experiences with and perceptions of a humanlike robot. In Study 1, participants (n=32) played a card-matching game with a humanlike robot. We manipulated the power distance (supervisor vs. subordinate) and proxemic distance (close vs. distant) between participants and the robot. Participants who interacted with the supervisor robot reported a more positive user experience when the robot was close than when the robot was distant, while interactions with the subordinate robot resulted in a more positive experience when the robot was distant than when the robot was close. In Study 2, participants (n=32) played the game in two different task distances (cooperation vs. competition) and proxemic distances (close vs. distant). Participants who cooperated with the robot reported a more positive experience when the robot was distant than when it was close. In contrast, competing with the robot resulted in a more positive experience when it was close than when the robot was distant. The findings from the two studies highlight the importance of consistency between the status and proxemic behaviors of the robot and of task interdependency in fostering cooperation between the robot and its users. This work also demonstrates how social distance may guide efforts toward a better understanding of human–robot interaction and the development of effective design guidelines.  相似文献   

18.
基于类别距离和Bhattacharyya距离的雷达信号特征评价   总被引:1,自引:0,他引:1  
从瞬时自相关法、小波变换法和时频原子法提取的脉内特征比较分析入手,提出了一种新的最优特征评价准则。以类内距离、类间距离和Bhattacharyya距离为基础,从特征的空间分布和错误识别率的上界等方面对不同算法提取出的脉内特征进行分析,实现了最优特征的选择。实验的仿真结果表明,这种最优特征评价准则是有效的,为雷达辐射源信号的特征评价提供了有意义的参考。  相似文献   

19.
The concept of library as a place is now in action in many academic libraries: from physical library spaces to Web presences. In the constantly growing market of online and distance learning, however, libraries must foster library as a place for students who may never set foot in the physical building. This article provides a profile of two universities serving two very different bodies of distance students as well as the challenges associated with these populations. These libraries work to provide services to distance students that cultivate the library as a place to go for learning, research, and support by focusing on six categories: access, environment, resources, instruction, availability at the point of need, and “being real.” Tangible examples and best practices are provided throughout. This article is based on a presentation given at the 15th National Conference of the Association of College and Research Libraries in Philadelphia in March 2011.  相似文献   

20.
为提高虚拟内窥镜实现中提取中心路径的时间效率,改善虚拟内窥镜的实时漫游,边界距离变换算法是提取中心路径的常用算法.上述算法在建立边界距离场和源距离场时非常耗时,故实时性很差.针对建立两个场非常耗时的缺点,提出定义超大数组,建立体素点ID值和体素点在体素点集中位置的一一对应关系,减少在确定体素点位置时对体素集的扫描次数,从而提高算法的效率.实验结果表明,改进后的算法时间效率高,实时漫游效果好,速度快,提取的中心路径漫游效果好,实现了虚拟漫游效果,具有一定的实际应用与理论研究价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号