首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 593 毫秒
1.
区间值属性决策树学习算法*   总被引:8,自引:0,他引:8  
王熙照  洪家荣 《软件学报》1998,9(8):637-640
该文提出了一种区间值属性决策树的学习算法.区间值属性的值域不同于离散情况下的无序集和连续情况下的全序集,而是一种半序集.作为ID3算法在区间值意义下的推广,算法通过一种分割信息熵的极小化来选取扩展属性.通过非平稳点分析,减少了分割信息熵的计算次数,使算法的效率得到了提高.  相似文献   

2.
.连续属性离散化算法比较研究*   总被引:2,自引:0,他引:2  
探讨了贪心及其改进算法、基于属性重要性、基于信息熵和基于聚类四类连续属性离散化算法,并通过实验验证这四类算法的离散化效果.实验结果表明,数据集离散化的效果不仅取决于使用算法,而且与数据集连续属性的分布和决策数据值的分类也有密切关系.  相似文献   

3.
一种基于熵的连续属性离散化算法   总被引:6,自引:0,他引:6  
贺跃  郑建军  朱蕾 《计算机应用》2005,25(3):637-638
连续属性离散化的关键在于合理确定离散化划分点的个数和位置。为了提高无监督离散化的效率,给出一种基于熵的连续属性离散化方法。该方法利用连续属性的信息量 (熵 )的特性,通过对连续属性变量的自身划分,最小化信息熵的减少和区间数,并寻求熵的损失与适度的区间数之间的最佳平衡,以便得到优化的离散值。实验表明该算法是行之有效的。  相似文献   

4.
基于离散度的决策树构造方法   总被引:1,自引:0,他引:1  
在构造决策树的过程中,属性选择将影响到决策树的分类精度.对此,讨论了基于信息熵方法和WMR方法的局限性,提出了信息系统中条件属性集的离散度的概念.利用该概念在决策树构造过程中选择划分属性,设计了基于离散度的决策树构造算法DSD.DSD算法可以解决WMR方法在实际应用中的局限性.在UCI数据集上的实验表明,该方法构造的决策树精度与基于信息熵的方法相近,而时间复杂度则优于基于信息熵的方法.  相似文献   

5.
基于语言场理论的连续属性离散化方法及实现   总被引:2,自引:1,他引:2  
1.引言在机器学习和KDD(Knowledge Discovery in Database)研究中,大多数算法都是以离散值为处理对象的。因此,常常需要对连续值属性进行离散化。目前,人们已经提出了很多离散化算法,如等长度区间法、等频率区间法、基于信息熵(C4.5)的二元分割方法和各种聚类分析方法,等等。不同的离散化算法,没有一个绝对的性能评价标准。在众多的离散化方法中,每种方法都有它的适用场合。  相似文献   

6.
基于信息熵的粗糙集连续属性离散化算法   总被引:60,自引:0,他引:60  
谢宏  程浩忠  牛东晓 《计算机学报》2005,28(9):1570-1574
该文提出了一种新的粗糙集连续属性离散化算法.首先对每一个候选断点定义了信息熵,以此作为对断点重要性的量度,在此基础上给出了断点选择的粗糙集连续属性离散化算法.最后采用多组数据对此算法的性能进行了检验,并与其它算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有很高的计算效率.  相似文献   

7.
对Chi2系列算法的改进方法   总被引:1,自引:0,他引:1  
Chi2系列算法是基于概率统计理论的连续属性离散化重要方法.论文对Chi2相关算法进行了深入分析,指出其中的不足,提出一种新的连续属性离散化方法:Rectified Chi2算法.新算法给出一种新的区间合并依据,能够更合理更有效地对连续属性进行离散化.在此基础上,考虑仅以最大差异为区间合并标准存在不合理性,提出一种基于差异序列为标准的区间合并方法,该方法可以大大提高Chi2系列算法的离散化效果.实验结果证明了上述算法的有效性.  相似文献   

8.
粗糙集属性应急数据存在冗余特征,降低挖掘效率,提出基于信息熵的粗糙集属性应急数据去重挖掘算法.将粗糙集理论和信息熵相结合,离散化处理应急数据,离散化完成后,约简对于决策表的条件信息熵大小不产生任何影响的属性,设定决策属性集合和条件属性集合,选取将同约简属性集合B的属性组合数目最小的熵值实现约简,去除冗余特征,完成应急数据去重挖掘.以大型船舶应急数据为研究对象展开数据去重挖掘,结果表明:可有效去重挖掘到船舶旋回性相关应急数据,利用数据增比特征能够分析到各因素对船舶旋回性的影响,并且所研究算法的挖掘效率较高,在数据量为1400条时,耗时仅为0.33 s.  相似文献   

9.
连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。  相似文献   

10.
焦冬艳  于津  张华 《现代计算机》2011,(Z1):20-22,28
连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。  相似文献   

11.
结合胡可云算法中对属性重要性的描述,以条件属性在可辩识矩阵中出现的频率作为启发信息,提出一种基于变精度粗糙集模型的属性约简算法.实验证明,该方法能够有效地对决策表进行属性约简,并具有一定的抗噪声能力.  相似文献   

12.
朱红  丁世飞 《计算机科学》2016,43(2):95-97, 128
提出了一种基于属性区分能力和AP聚类的属性粒化方法(Attribute Granulation based on attribute discernibility and AP algorithm,AGAP)。该方法首先依据属性依赖度计算属性的区分能力;然后将所有属性作为潜在的聚类中心,使用AP算法聚类,得到若干个属性簇类;最后采取选用代表属性的方法得到较粗的属性粒子,从而达到属性粗粒化的要求。对高维数据的特征降维,这种算法比传统的属性约简算法大大提高了运算效率,在属性粒化精度要求不是很严格的情况下,所提算法优势明显。  相似文献   

13.
Attribute grammars (AGs) are a suitable formalism for the development of language processing systems. However, for languages including unrestricted labeled jumps, such as “goto” in C, the optimizers in compilers are difficult to write in AGs. This is due to two problems that few previous researchers could deal with simultaneously, i.e., references of attribute values on distant nodes and circularity in attribute dependency. This paper proposescircular remote attribute grammars (CRAGs), an extension of AGs that allows (1) direct relations between two distant attribute instances through pointers referring to other nodes in the derivation tree, and (2) circular dependencies, under certain conditions including those that arise from remote references. This extension gives AG programmers a natural means of describing language processors and programming environments for languages that include any type of jump structure. We also show a method of constructing an efficient evaluator for CRAGs called amostly static evaluator. The performance of the proposed evaluator has been measured and compared with dynamic and static evaluators. Akira Sasaki: He is a research fellow of the Advanced Clinical Research Center in the Institute of Medical Science at the University of Tokyo. He received his BSc and MSc from Tokyo Institute of Technology, Japan, in 1994 and 1996, respectively. His research interests include programming languages, programming language processors and programming environments, especially compiler compilers, attribute grammars and systematic debugging. He is a member of the Japan Society for Software Science and Technology. Masataka Sassa, D.Sc.: He is Professor of Computer Science at Tokyo Institute of Technology. He received his BSc, MSc and DSc from the University of Tokyo, Japan, in 1970, 1972 and 1978, respectively. His research interests include programming languages, programming language processors and programming environments, currently he is focusing on compiler optimization, compiler infrastructure, attribute grammars and systematic debugging. He is a member of the ACM, IEEE Computer Society, Japan Society for Software Science and Technology, and Information Processing Society of Japan.  相似文献   

14.
对基于容差关系的属性约简进行研究,提出了一种属性次序下的基于容差关系的属性约简算法。在给定属性次序的条件下,该算法可以计算不完备信息系统的惟一约简。通过典型实例验证了该算法的有效性和可行性。  相似文献   

15.
针对传统的特征选择使用阈值过滤导致有效信息丢失的问题,提出一种粗糙集的文本特征选择方法。该方法以核为起点利用特征属性的重要性和依赖性作为启发式信息进行特征选择,使文本的特征维数得到一定程度的降低。实验表明,此算法不仅易于实现而且能够有效降低特征数目,提高分类效率。  相似文献   

16.
基于遗传算法的粗糙集属性约简算法   总被引:1,自引:0,他引:1  
为了研究粗糙集理论中属性约简问题,给出了一种属性相对重要度定义,证明了其合理性,并将它应用到基于遗传算法的约简算法中,提出一种启发式遗传算法.算法采用修正策略保证群体进化收敛于最小约简,同时引入属性相对重要度作为启发信息,加快算法的收敛速度.对算法进行的时间复杂度和完备性分析以及数值实验表明,基于遗传算法的粗糙集属性约简算法具有完备、快速收敛等特点.  相似文献   

17.
一种基于粗糙集的最小约简算法   总被引:4,自引:6,他引:4  
随着计算机技术的发展,急剧产生海量的数据。如何从这些数据中提取有用的信息是一个重要的问题。一种新的数据分析方法——粗糙集理论被提出。该理论在分类的意义下定义了模糊性和不确定性的概念,是一种处理不确定和不精确问题的新型数学工具。文中首先对近年兴起的粗糙集的基本概念进行了叙述,在此基础上运用粗糙集理论提出一种新的约简算法。  相似文献   

18.
The problem of identifying meaningful patterns in a database lies at the very heart of data mining. A core objective of data mining processes is the recognition of inter-attribute correlations. Not only are correlations necessary for predictions and classifications – since rules would fail in the absence of pattern – but also the identification of groups of mutually correlated attributes expedites the selection of a representative subset of attributes, from which existing mappings allow others to be derived. In this paper, we describe a scalable, effective algorithm to identify groups of correlated attributes. This algorithm can handle non-linear correlations between attributes, and is not restricted to a specific family of mapping functions, such as the set of polynomials. We show the results of our evaluation of the algorithm applied to synthetic and real world datasets, and demonstrate that it is able to spot the correlated attributes. Moreover, the execution time of the proposed technique is linear on the number of elements and of correlations in the dataset.  相似文献   

19.
本文主要阐述了在.NET平台下实现AOP的技术基础,这些技术基础包括元数据,Attribute和代理(Proxy)。通过这些技术的阐述,证明在.NET平台下,是可以实现AOP技术主要特性的。  相似文献   

20.
. This paper presents the design and implementation of an attribute management system that supports the specification of information, past that of the domain definition, needed to qualify an engineering analysis. The information anaged by this system includes various order tensors eeded to specify the analysis attributes of material properties, oads, and boundary conditions as well as additional data constructs used by the analysis such as strings, and references to either other attributes or model entities. The system supports general dependencies and variations of this attribute information as well as its association with the various geometric entities which constitute the geometric domain being analyzed. In addition, since the information is coupled with the model entities themselves, the system can be used to store information needed to control the discretization process of the geometric domain. Since the information can be both spatially and temporally varying, an expression subsystem was also designed into the system. The framework was designed using object-oriented techniques, implemented in C++, and can be easily maintained and extended.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号