共查询到20条相似文献,搜索用时 78 毫秒
1.
基于信息增益法的决策树构造方法 总被引:7,自引:1,他引:6
决策树数据挖掘技术是目前最有影响和使用最多的一种数据挖掘技术。决策树构造的方法很多,本文提出一种基于信息增益法的决策树构造方法。给出了相应的决策树构造算法,并通过一个实例对其进行了说明。最后,本文对噪声问题、子树复制和碎叶等问题提出了解决思路。 相似文献
2.
模式是事物的本质,特征只是事物的表象,模式识别的任务就是要建立事物本质和表象之间的联系,传统模式识别是通过分类器建立这样的联系,模式识别的效率依赖于特征提取和选择。该文基于信息增益,通过动力学系统演化方程建立事物本质和表象之间的联系,该过程更符合人的认知过程。 相似文献
3.
提高故障诊断能力对于确保水下机器人系统的稳定运行具有重要意义,故障分类是目前水下机器人故障诊断所面临的一个重要问题。针对水下机器人推进器系统数据特征,提出一种基于信息增益率的加权朴素贝叶斯故障分类算法。首先,计算故障训练样本的先验概率,将各属性的信息增益率作为权值;其次,构建基于增益率加权的朴素贝叶斯分类模型;然后,对检测的故障数据利用分类模型获取具有最大后验概率的故障模式,实现故障分类。与朴素贝叶斯算法和决策树算法相比,仿真实验结果表明基于信息增益率加权的朴素贝叶斯算法的分类成功率更高,能够有效地实现水下机器人的故障分类。 相似文献
4.
5.
胡颖 《计算机与数字工程》2013,41(3)
论文提出了一种基于信息增益改进的信息增益文本特征选择方法.首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响.其次运用特征出现概率计算信息增益权值,降低低频词对特征选择的干扰.最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集.通过对照不同算法的测评函数值,表明论文选取的特征子集具有更好的分类能力. 相似文献
6.
7.
L—天冬氨酸生物反应器的最优组合 总被引:2,自引:1,他引:1
采用本文作者提出的酶反应动力学方程,比较分析了CSTR,PFR及CSTR串联PFR反应器生产L-天冬氨酸的能力,结果表明,对于以单位重量大肠杆菌细胞为基础的L-天冬氨酸的生产能力,当底物富马酸的转化率低于80%时,CSTR的生产能力最大;而当转化率高于94%时,PFR的生产能力高于CSTR的生产能力。. 相似文献
8.
交通事故预测是交通安全评价、规划和决策的基础。针对各种单一灰色预测模型存在的局限性,建立了一种基于最优加权的灰色组合预测模型。根据我国道路交通事故的发展情况,建立了GM(1,1)、Verhulst和SCGM(1,1)c相结合的组合预测模型,运用最优加权法确定组合预测模型的权重系数。利用2001-2007年我国道路交通事故死亡人数的实际值作为原始数据,构建各个单一预测模型和最优组合预测模型,预测其2008-2010年交通事故死亡人数。预测结果表明,组合预测模型比单一GM(1,1)模型、Verhulst模型和SCGM(1,1)c模型具有更高的预测精度。 相似文献
9.
10.
11.
基于频繁模式的分类应用研究尚处于初始阶段,但其在关系数据、文本文档与图等方面的分类应用已取得初步成果。系统地研究了基于信息增益区分的频繁模式分类问题,提出了一种基于信息增益区分的频繁模式分类模型(IGFPC),从理论上论证了该模型的可行性。通过建立模式频率与基于信息增益区分度量间的联系,提出了一种在挖掘有用频繁模式上设置最小支持度阀值的方法,基于该方法和提出的特征选择算法(IGPS),生成用以构建高质量模式分类器的区分频繁模式。实验研究显示基于信息增益区分的频繁模式分类框架模型能在分类大数据集上达到较好的扩展性能和较高的分类精度。 相似文献
12.
13.
14.
为了有效解决冲突证据的融合问题,在计算证据空间冲突向量的基础上,提出了一种基于信息熵测度的冲突证据合成方法.首先计算证据的信息熵获得该证据引起不确定性的度量,用信息熵计算证据空间赋予该证据的信任度,再用获得的信任度对数据模型进行加权处理,最后对处理后的证据运用D-S合成规则获得结果.实验表明该算法有效解决了冲突证据的合成问题,识别精度高、收敛速度快. 相似文献
15.
针对面向属性的归纳方法及粗糙集方法对知识粒性连续性的特点,将两者有机结合,利用面向属性归纳方法对数据进行泛化,再用属性的信息增益技术寻找泛化属性之间的数据依赖关系,能快速地在数据集中挖掘分类规则。将其应用于经典的仿真算例中,仿真结果合理、可靠。 相似文献
16.
引入信息增益的层次聚类算法 总被引:3,自引:0,他引:3
层次聚类分析是模式识别和数据挖掘领域中一个非常重要的研究课题,具有广泛的应用前景。受决策树学习中选择最佳分类属性的启发,提出一种引入信息增益的层次聚类方法,该方法利用信息增益指导层次聚类中的属性加权,从而提高聚类结果质量。在UCI数据集上的实验结果表明,该算法性能明显优于原层次聚类算法。 相似文献
17.
针对数据发布中的隐私泄露问题, 分析了对数据集进行匿名保护需要满足的条件, 提出了一种基于信息增益比例约束的数据匿名方法。该方法以凝聚层次聚类为基本原理, 将数据集中的元组划分到若干个等价群中, 然后概化每个等价群中的元组使其具有相同的准标志符值。在聚类过程中, 以信息损失最小、信息增益比例最大的约束条件来控制聚类的合并, 可以使数据匿名结果保持良好的可用性和安全性。对匿名结果的质量评估问题进行了深入的探讨, 提出了匿名结果可用性和安全性的量化计算方法。在UCI知识库提供的Adult数据集上的一系列实验结果表明, 该方法是有效可行的。 相似文献
18.
K-prototypes聚类算法结合了K-means算法和K-modes算法,可用于分析混合属性的数据对象。传统的K-prototypes聚类算法在计算数据对象的相异度时,未考虑各个属性对于最终聚类结果的影响程度,而现实世界中,各属性的重要程度是不同的。使用了信息论中信息增益的计算方法,来获得各个属性的权值。在计算各属性的差异度时,乘以这些权值,从而可以获得更为准确的聚类结果。为了增加算法处理模糊问题的能力,本算法引用了模糊理论,从而使其具有较好的抗干扰能力和处理不确定性问题的能力。通过对四个UCI数据集的聚类分析实验,表明了本算法的有效性。 相似文献
19.
20.
连续属性的离散化是文本分类任务中数据预处理阶段的一项重要技术。针对机器学习领域中的诸多优秀算法只能处理离散属性的特点,提出一种基于词出现和信息增益相结合的多区间连续属性离散化方法(multi-interval discretization based on term presence and information gain,MTPIG)。并将MTPIG算法应用到了分类算法AdaBoost.MH中,给出实验结果及分析。实验结果表明,使用MTPIG算法处理文本分类中的数据,其过程简单高效,预测精度高,可理解 相似文献