首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
基于改进的ID3信息增益的特征选择方法   总被引:3,自引:1,他引:2       下载免费PDF全文
针对ID3中信息增益的缺点,通过引进属性依赖度进行改进,提出一种综合的特征选择方法,使用优化的文档频方法进行特征初选以降低文本向量的稀疏性,利用改进的信息增益方法进一步选择特征,以获得具有代表性的特征子集。实验结果表明该方法的性能优于信息增益、 统计量及互信息方法。  相似文献   

2.
基于相关性和冗余度的联合特征选择方法   总被引:1,自引:1,他引:0  
比较研究了与类别信息无关的文档频率和与类别信息有关的信息增益、互信息和χ2统计特征选择方法,在此基础上分析了以往直接组合这两类特征选择方法的弊端,并提出基于相关性和冗余度的联合特征选择算法。该算法将文档频率方法分别与信息增益、互信息和χ2统计方法联合进行特征选择,旨在删除冗余特征,并保留有利于分类的特征,从而提高文本情感分类效果。实验结果表明,该联合特征选择方法具有较好的性能,并且能够有效降低特征维数。  相似文献   

3.
基于主成分分析的决策树构造方法   总被引:1,自引:0,他引:1  
针对传统的ID3算法在选择分裂属性上对取值较多属性过分依赖的缺点,提出了基于主成分分析的决策树优化算法.该算法是通过主成分分析综合了信息增益和相关度系数来选择分裂属性.论文通过UCI提供的标准数据集,对优化算法进行测试,分析了优化算法的性能特点,验证了优化算法在分类正确率和执行效率上要优于ID3算法.  相似文献   

4.
决策树的优化算法   总被引:78,自引:1,他引:78  
刘小虎  李生 《软件学报》1998,9(10):797-800
决策树的优化是决策树学习算法中十分重要的分支.以ID3为基础,提出了改进的优化算法.每当选择一个新的属性时,算法不是仅仅考虑该属性带来的信息增益,而是考虑到选择该属性后继续选择的属性带来的信息增益,即同时考虑树的两层结点.提出的改进算法的时间复杂性与ID3相同,对于逻辑表达式的归纳,改进算法明显优于ID3.  相似文献   

5.
介绍了基于辨识集的属性约简算法,把该属性约简算法同类别相关性结合起来,提出了一个综合的特征选择方法.该综合方法使用类别相关性进行特征初选,并用所提属性约简算法消除冗余.实验结果表明此种特征选择方法能够获得较具代表性的特征子集.  相似文献   

6.
信息增益方法从整个训练集角度进行特征赋权,该模式不适合构造类别特征向量.通过改进的朴素贝叶斯方法选择类别特征用于构造类别向量,再利用词频信息改进信息增益模型用于文本特征选择,改善了信息增益模型对于中频词信息利用不足问题,提出一种基于类别的文本特征加权改进模型.随后的文本分类试验表明,提出的加权模型相比较于传统的信息增益方法具有较好的文本分类效果.  相似文献   

7.
针对文本分类中传统特征选择方法卡方统计量和信息增益的不足进行了分析,得出文本分类中的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计的特征选择评估函数,并利用该特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为各类别特征词库的并集。通过基于SVM的中文文本分类实验表明,该方法与传统的卡方统计量和信息增益相比,在一定程度上提高了文本分类的效果。  相似文献   

8.
一类基于信息熵的多标签特征选择算法   总被引:4,自引:0,他引:4  
在多标签分类问题中,特征选择是提升多标签分类器性能的一种重要手段.针对目前多标签特征选择算法计算复杂度大和无法给出一个合理的特征子集的问题,提出了一种基于信息熵的多标签特征选择算法.该算法假设特征之间相互独立,使用特征与标签集合之间的信息增益来衡量特征与标签集合之间的重要程度,并据此提出一种信息增益阈值选择方法.首先计算每一个特征与标签集合之间的信息增益,然后使用信息增益阈值选择算法得到一个合理的阈值,最后根据阈值删除不相关的特征,得到一组合理的特征子集.在2个不同分类器和4个多标签数据集上的实验结果表明:特征选择算法能够有效地提升多标签分类器的分类性能.  相似文献   

9.
基于粗糙集的决策树构造算法   总被引:7,自引:2,他引:5       下载免费PDF全文
针对ID3算法构造决策树复杂、分类效率不高问题,基于粗糙集理论提出一种决策树构造算法。该算法采用加权分类粗糙度作为节点选择属性的启发函数,与信息增益相比,能全面地刻画属性分类的综合贡献能力,并且计算简单。为消除噪声对选择属性和生成叶节点的影响,利用变精度粗糙集模型对该算法进行优化。实验结果表明,该算法构造的决策树在规模与分类效率上均优于ID3算法。  相似文献   

10.
以智慧城市管理应用系统中的案件上报短文本为对象,研究有效的特征生成和特征选择方法,实现案件快速准确地自动分类。根据案件描述短文本的特点,提出一种互邻特征组合算法,以生成描述力更强的组合特征;为进一步约减特征并优化特征空间,提出一种新的隶属度函数来为分类体系中的每个类别构建一个类别特征域,然后利用类别特征域进一步优化选择原始特征与组合特征,最终得到对分类贡献最高的特征表示集合。以南宁市青秀区"城管通"App中的案例分类为实例,验证提出的特征生成及选择方法,实验表明相对于文档频率、互信息和信息增益,提出的方法对案件分类的准确率更高,引入组合特征能显著提升分类准确率。  相似文献   

11.
一种基于修正信息增益的ID3算法   总被引:2,自引:0,他引:2       下载免费PDF全文
ID3算法是决策树中影响最大的算法之一,它以信息增益为标准选择决策树的测试属性。这种算法存在不足之处,在选择合适的测试属性时,倾向于选择取值较多的属性,而在实际应用中,取值较多的属性未必是重要的。针对此算法的不足,本文提出了一种对增益修正的 ID3算法,为改善 ID3的多值偏向问题提供了一种有效途径。通过理论分析和实验证明,这种算法能较好地解决多值倾向的问题。  相似文献   

12.
决策树ID3算法的改进   总被引:3,自引:0,他引:3  
本文根据ID3算法中信息增益计算原理的特点,利用数学上等价无穷小的性质提出一种新的改进的ID3算法,减少了信息增益的计算量,进而提高ID3算法中信息增益的计算效率。与原ID3算法相比,改进的ID3算法在构造决策树时具有相同的准确率和更高的计算速度。  相似文献   

13.
通过分析ID3算法的基本原理及其多值偏向问题,提出了一种基于相关系数的决策树优化算法。首先通过引进相关系数对ID3算法进行改进,从而克服其多值偏向问题,然后运用数学中泰勒公式和麦克劳林公式的性质,对信息增益公式进行近似简化。通过具体数据的实例验证,说明优化后的ID3算法能够解决多值偏向问题。标准数据集UCI上的实验结果表明,在构建决策树的过程中,既提高了平均分类准确率,又降低了构建决策树的复杂度,从而还缩短了决策树的生成时间,当数据集中的样本数较大时,优化后的ID3算法的效率得到了明显的提高。  相似文献   

14.
机器学习中的决策树算法具有重要的数据分类功能,但基于信息增益的ID3算法与基于基尼指数的CART算法的分类功效还值得提高。构造信息增益与基尼指数的自适应集成度量,设计有效的决策树算法,以提升ID3与CART两类基本算法的性能。分析信息增益信息表示与基尼指数代数表示的异质无关性,采用基于知识的加权线性组合来建立信息增益与基尼指数的融合度量,开发决策树启发构造算法IGGI。关于决策树,IGGI算法有效改进了ID3算法与CART算法,相关数据实验表明IGGI算法通常具有更优的分类准确度。  相似文献   

15.
特定信息增益决策森林分类器研究   总被引:2,自引:1,他引:1       下载免费PDF全文
传统的决策树是利用决策属性的信息增益来进行建模的,而有时决策属性的信息增益是根据属性的不同取值而动态变化的。改进了决策树算法,考虑了决策属性取值不同产生的信息增益的差别。根据决策属性的不同取值创建了基于特定信息增益的决策森林分类模型。实验结果表明虽然决策森林模型的建模过程比决策树复杂,但是具有比较高的分类精度。  相似文献   

16.
客户分类系统的ID3算法流程及实现   总被引:1,自引:0,他引:1  
通过选取决策树中的ID3算法对客户进行分类,对ID3算法进行了简要的概括,研究基于信息增益的度量选择测试属性方法,使用JAVA语言自主编程实现分类功能,并运用程序对一组数据进行处理得出分类结果。  相似文献   

17.
经典ID3决策树算法适用于离散型数据分类,但用于连续处理时需要数据离散化容易导致信息损失。提出邻域等价关系从而诱导邻域ID3(NID3)决策树算法,NID3算法改进了ID3决策树算法,能够直接实施连续预测并获取更好的分类效果。在邻域决策系统中,挖掘一种邻域等价关系;基于邻域等价粒化,构建邻域信息度量;基于邻域信息增益,设计NID3决策树算法。实例分析与数据实验均表明,NID3算法具有连续数据分类预测有效性,在分类机器学习中优于ID3算法。  相似文献   

18.
基于属性间交互信息的ID3算法   总被引:3,自引:0,他引:3  
启发式算法是决策树研究的核心。文中分析了最常见的一种决策树归纳启发式算法即ID3算法的不足,给出了一个改进版本,它在选择测试属性时不仅要求该属性带来的信息增益尽可能大,而且要求其与同一分支上已经使用过的各属性之间的交互信息尽可能小,从而避免了对冗余属性的选择,实现信息熵的真正减少。分析及实验结果表明,与ID3算法相比,该算法能构造出更优的决策树。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号