共查询到18条相似文献,搜索用时 78 毫秒
1.
基于最大互信息最大相关熵的特征选择方法 总被引:4,自引:1,他引:4
特征选择算法主要分为filter和wrapper两大类,并已提出基于不同理论的算法模型,但依然存在算法处理能力不强、子集分类精度不高等问题。基于模糊粗糙集的信息熵模型提出最大互信息最大相关熵标准,并根据该标准设计了一种新的特征选择方法,能同时处理离散数据、连续数据和模糊数据等混合信息。经UCI数据集试验,表明该算法与其他算法相比,具有较高的精度,且稳定性较高,是有效的。 相似文献
2.
神经网络集成能够有效提高单个神经网络的分类或回归性能。在基于香农熵的神经网络集成基础上,提出了基于二次Renyi熵的神经网络集成。与基于香农熵的神经网络集成相比,所提集成策略的最优组合权重可以解析求得,无需利用牛顿法迭代求取。在人工和标准数据集上的实验结果表明:与单个神经网络和基于香农熵的神经网络集成相比,基于二次Renyi熵的神经网络集成能够取得更优的性能。 相似文献
3.
如何构造差异性大的基分类器是集成学习研究的重点,为此提出迭代循环选择法:以最大化正则互信息为准则提取最优特征子集,进而基于此训练得到基分类器;同时以错分样本个数作为差异性度量准则来评价所得基分类器的性能,若满足条件则停止,反之则循环迭代直至结束.最后用加权投票法融合所选基分类器的识别结果.通过仿真实验验证算法的有效性,以支持向量机为分类器,在公共数据集UCI上进行实验,并与单SVM及经典的Bagging集成算法和特征Bagging集成算法进行对比.实验结果显示,该方法可获得较高的分类精度. 相似文献
4.
基于二次熵的互信息特征选取方法的研究 总被引:2,自引:0,他引:2
随着全球网络的普及应用,大量没有统一结构和管理的在线资源急需进行处理,高效的网页自动分类方法是从网上海量信息中提取所需信息的关键技术,特征选取又是文本分类挖掘的重要基础,本文以广义信息论为理论基础,提出了基于二次熵的互信息特征选取方法,独立评估特征集中的每个特征,分析特征和类别的关系,从高维的特征空间中选取出对文本分类有效的特征,降低了文本特征空间的维数,提高了文本分类的性能。 相似文献
5.
潘果 《计算机工程与应用》2014,(15):25-29,64
针对基于互信息(MI)传统特征选择方法中要求确定冗余度参数β的问题,提出一种改进型特征选择算法NMIFS-FS2。该算法在对连续或离散特征进行选择时,输入为特征组合与类之间的MI,代替传统算法中单一特征与类之间的MI,解决了冗余度参数β很难确定的问题,扩大了应用范围。进行的两组实验验证了该算法的有效性。实验结果表明,相比几种传统的分类算法,该算法具有更好的鲁棒性、稳定性和高效性。 相似文献
6.
在高维数据如图像数据、基因数据、文本数据等的分析过程中,当样本存在冗余特征时会大大增加问题分析复杂难度,因此在数据分析前从中剔除冗余特征尤为重要。基于互信息(MI)的特征选择方法能够有效地降低数据维数,提高分析结果精度,但是,现有方法在特征选择过程中评判特征是否冗余的标准单一,无法合理排除冗余特征,最终影响分析结果。为此,提出一种基于最大联合条件互信息的特征选择方法(MCJMI)。MCJMI选择特征时考虑整体联合互信息与条件互信息两个因素,两个因素融合增强特征选择约束。在平均预测精度方面,MCJMI与信息增益(IG)、最小冗余度最大相关性(mRMR)特征选择相比提升了6个百分点;与联合互信息(JMI)、最大化联合互信息(JMIM)相比提升了2个百分点;与LW向前搜索方法(SFS-LW)相比提升了1个百分点。在稳定性方面,MCJMI稳定性达到了0.92,优于JMI、JMIM、SFS-LW方法。实验结果表明MCJMI能够有效地提高特征选择的准确率与稳定性。 相似文献
7.
《计算机工程》2014,(8)
运动估计是视频编码技术的核心,通过对运动估计基本原理的分析可知匹配准则是运动估计的关键环节。针对传统匹配准则描述块匹配精度不高,导致信息冗余较多的不足,提出一种稀疏统计二次Renyi熵的运动估计匹配准则。该匹配准则在计算Renyi熵时,引入了统计直方图,采用统计的方式计算概率密度函数,并结合基于梯度的图像质量评价和运动矢量中心偏离特性,对直方图的统计区间进行稀疏化。实验结果表明,该匹配准则简化了Renyi熵概率密度函数的计算,通过统计区间的稀疏化减少了80%以上的乘法运算量,对运动剧烈的视频序列能够得到优于传统绝对误差和函数的峰值信噪比,取得更好的图像质量。 相似文献
8.
特征选择在模式识别和数据挖掘等领域都有十分广泛的应用.然而,当涉及空间数据时,由于传统特征选择方法没有很好地考虑数据的空间特性,所以会导致特征选择结果性能下降.从空间数据本身的特性出发,提出一种特征选择方法MEFS(maximum entropy feature selection).MEFS在基于最大熵原理的基础上,运用互信息和Z-测试技术,采用两步方法进行空间特征选择.第1步,空间谓词选择;第2步,选择与每个空间谓词对应的相关属性集.最后,分别对MEFS方法和RELIEF方法以及基于MEFS的分类方法与决策树算法ID3分别进行了实验比较.实验结果表明,MEFS方法不仅可以节约特征提取和分类时间,而且也极大地提高了分类质量. 相似文献
9.
10.
PG-HMI:一种基于互信息的特征选择方法 总被引:2,自引:0,他引:2
传统的基于样本的互信息估计方法不能直接处理离散、连续属性混合的情况.本文给出一种能够直接处理混合属性的互信息估计方法(PG法).为了更好地考虑属性之间的关联,提出名为HMI的特征选择准则.结合PG互信息估计方法和HMI特征选择准则,给出一种新的特征选择方法(PG-HMI).实验结果验证PG互信息估计法的合理性及PG-HMI特征选择方法的有效性. 相似文献
11.
基于互信息的主成分分析特征选择算法 总被引:3,自引:0,他引:3
主成分分析是一种常用的特征选择算法,经典方法是计算各个特征之间的相关,但是相关无法评估变量间的非线性关系.互信息可用于衡量两个变量间相互依赖的强弱程度,且不局限于线性相关,鉴于此,提出一种基于互信息的主成分分析特征选择算法.该算法计算特征间的互信息,以互信息矩阵的特征值作为评价准则确定主成分的个数,并衡量主成分分析特征选择的效果.通过实例对所提出方法和传统主成分分析方法进行比较,并以神经网络为分类器分析分类效果. 相似文献
12.
针对传统的基于启发式搜索的多标记特征选择算法时间复杂度高的问题,提出一种简单快速的多标记特征选择(EF-MLFS)方法。首先使用互信息(MI)衡量每个维度的特征与每一维标记之间的相关性,然后将所得相关性相加并排序,最后按照总的相关性大小进行特征选择。将所提方法与六种现有的比较有代表性的多标记特征选择方法作对比,如最大依赖性最小冗余性(MDMR)算法和基于朴素贝叶斯的多标记特征选择(MLNB)方法等。实验结果表明,EF-MLFS方法进行特征选择并分类的结果在平均准确率、覆盖率、海明损失等常见的多标记分类评价指标上均达最优;该方法无需进行全局搜索,因此时间复杂度相较于MDMR、对偶多标记应用(PMU)等方法也有明显降低。 相似文献
13.
特征加权是文本分类中的重要环节,通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法。实验结果表明,该方法比传统的特征加权方法具有更好的分类性能。 相似文献
14.
通过对互信息(MI)文本特征选择方法与信息增益、卡方统计方法的实验研究比较,发现了影响MI方法性能的主要因素是特征选择过程中的随机性,通过加入扰动因子的方法对MI方法进行了改进,消除了随机性的影响,实验表明,改进后的MI方法与信息增益、卡方统计方法比较,具有较明显的优势。 相似文献
15.
唐立力 《计算机工程与应用》2015,51(19):152-157
根据科技文献的结构特点,搭建了一个四层挖掘模式,提出了一种应用于科技文献分类的文本特征选择方法。该方法首先依据科技文献的结构将其分为四个层次,然后采用K-means聚类对前三层逐层实现特征词提取,最后再使用Aprori算法找出第四层的最大频繁项集,并作为第四层的特征词集合。在该方法中,针对K-means算法受初始中心点的影响较大的问题,首先采用信息熵对聚类对象赋权的方式来修正对象间的距离函数,然后再利用初始聚类的赋权函数值选出较合适的初始聚类中心点。同时,通过为K-means算法的终止条件设定标准值,来减少算法迭代次数,以减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰,从而使算法达到更准确更高效的聚类效果。上述措施使得该文本特征选择方法能够在文献语料库中更加准确地找到特征词,较之以前的方法有很大提升,尤其是在科技文献方面更为适用。实验结果表明,当数据量较大时,该方法结合改进后的K-means算法在科技文献分类方面有较高的性能。 相似文献
16.
针对在特征选择中选取特征较多时造成的去冗余过程很复杂的问题,以及一些特征需与其他特征组合后才会与标签有较强相关度的问题,提出了一种基于互信息的多级特征选择算法(MI_MLFS)。首先,根据特征与标签的相关度,将特征分为强相关、次强相关和其他特征;其次,选取强相关特征后,在次强相关特征中,选取冗余度较低的特征;最后,选取能增强已选特征集合与标签相关度的特征。在15组数据集上,将MI_MLFS与ReliefF、最大相关最小冗余(mRMR)算法、基于联合互信息(JMI)算法、条件互信息最大化准则(CMIM)算法和双输入对称关联(DISR)算法进行对比实验,结果表明MI_MLFS在支持向量机(SVM)和分类回归树(CART)分类器上分别有13组和11组数据集获得了最高的分类准确率。相较多种经典特征选择方法,MI_MLFS算法有更好的分类性能。 相似文献
17.
特征选择对于分类器的分类精度和泛化性能起重要作用。目前的多标记特征选择算法主要利用最大相关性最小冗余性准则在全部特征集中进行特征选择,没有考虑专家特征,因此多标记特征选择算法的运行时间较长、复杂度较高。实际上,在现实生活中专家依据几个或者多个关键特征就能够直接决定整体的预测方向。如果提取关注这些信息,必将减少特征选择的计算时间,甚至提升分类器性能。基于此,提出一种基于专家特征的条件互信息多标记特征选择算法。首先将专家特征与剩余的特征相联合,再利用条件互信息得出一个与标记集合相关性由强到弱的特征序列,最后通过划分子空间去除冗余性较大的特征。该算法在7个多标记数据集上进行了实验对比,结果表明该算法较其他特征选择算法有一定优势,统计假设检验与稳定性分析进一步证明了所提出算法的有效性和合理性。 相似文献
18.
特征的选择对文本分类的精确性有着非常重要的影响。针对传统的TFIDF没有考虑特征词条在各个类之间的分布的不足,对TFIDF特征选择算法进行了深入的分析,并结合信息熵的概念提出了一种新的TFIDF特征选择算法。实验结果表明,改进后的算法可以有效地提高文本分类的精确度。 相似文献