首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
研究互信息理论,针对其不足引进粗糙集并给出一个基于关系积理论的属性约简算法,以此为基础提出一个适用于海量文本数据集的特征选择方法。该方法使用互信息进行特征初选,利用所给的属性约简算法消除冗余,从而获得具有代表性的特征子集。实验结果表明,该特征选择方法效果良好。  相似文献   

2.
基于互信息最大化和特征聚类的特征选择   总被引:1,自引:0,他引:1  
提出一种互信息最大化和特征聚类相结合的特征选择法。并将其应用于邮件识别。通过互信息最大化从原始特征空间中选择次优特征子集.借助于特征空间的聚类来剔除冗余特征,从而实现特征空间的再次降维。实验结果表明该方法是一种有效的特征选择法。  相似文献   

3.
基于互信息和粗糙集理论的特征选择   总被引:2,自引:0,他引:2       下载免费PDF全文
朱颢东  李红婵 《计算机工程》2011,37(15):181-183
针对互信息方法在精度方面的不足,通过引入粗糙集,给出一种基于关系积理论的属性约简算法,以此为基础提出一个适用于海量文本数据集的特征选择方法。该方法采用互信息进行特征初选,利用提出的属性约简算法消除冗余,获得较具代表性的特征子集。实验结果表明,该特征选择方法能获得冗余度小且较具代表性的特征子集。  相似文献   

4.
针对电网运营评价指标多而繁杂,难以对指标类别与指标间的相关性定性定量分析等问题,本文提出了一种基于模糊聚类与互信息的电网运营指标筛选方法.首先,利用系统运行效率、可靠性、经济性基本原则对国内外现有对电网运营评价的相关指标进行初步筛选,然后建立中心指标利用模糊聚类分析法计算其他指标对中心指标的模糊隶属度,通过指标隶属度的...  相似文献   

5.
多变量经验模式分解(MEMD)方法不需要根据先验知识选取基函数,能同时对多通道数据进行自适应分解,适合于分析具有高度相关性和非平稳性的脑电信号。为了判别包含有用信息的内蕴模式函数(IMFs),提出一种基于噪声辅助多变量经验模式分解(NA-MEMD)和互信息的方法,并用于脑电特征提取。首先使用NA-MEMD算法对多通道信号进行分解得到多尺度IMF分量,然后采用互信息法分别计算各尺度上信号与其IMF分量、噪声与其IMF分量、信号IMF分量与噪声IMF分量之间的相关性,接着根据敏感因子筛选包含有用信息的IMF分量,将其叠加得到对应的重构信号,最后采用共同空间模式(CSP)法对重构信号进行特征提取,再用支持向量机(SVM)实现分类。使用仿真数据和实际数据集BCI Competition IV Data Set 1进行测试,与现有的其他方法比较,验证了所提方法的有效性。  相似文献   

6.
刘晋胜 《计算机科学》2015,42(3):261-265
混合条件属性参数间的距离值存在较大的差异,导致仅聚合距离数量级较大、较规律的数值条件属性对象,而忽视数量级较小、混沌,但类别特征更加明显的分类条件属性对象。提出了一种基于平均互信息的聚类算法。通过熵量化参数类别特性的大小,再根据熵的平均互信息计算方法衡量数据对象间类别的相同、相异特征量,统一数值和分类条件属性参数间距离的数量级,最后通过优化迭代自适应过程得到最终聚类结果。实验结果表明,该算法具有良好的聚类质量和自适应性。  相似文献   

7.
聚类集成是机器学习中的新问题.它是利用同一数据集的多个聚类划分集成在一起,以提高聚类分析的性能.如何发现从多个划分中得到“consensus clustering”是一个很困难的问题.很多学者对此作了研究.本文提出了一种基于互信息的模糊聚类集成算法.该算法主要扩展了Strehl & Ghosh提出的基于互信息的聚类集成目标函数,将其应用到模糊划分的集成,同时利用类似于信息瓶颈聚类的算法进行求解.实验结果表明,在4个UCI的数据集上,基于互信息的聚类集成能获得良好的性能.  相似文献   

8.
在高维数据如图像数据、基因数据、文本数据等的分析过程中,当样本存在冗余特征时会大大增加问题分析复杂难度,因此在数据分析前从中剔除冗余特征尤为重要。基于互信息(MI)的特征选择方法能够有效地降低数据维数,提高分析结果精度,但是,现有方法在特征选择过程中评判特征是否冗余的标准单一,无法合理排除冗余特征,最终影响分析结果。为此,提出一种基于最大联合条件互信息的特征选择方法(MCJMI)。MCJMI选择特征时考虑整体联合互信息与条件互信息两个因素,两个因素融合增强特征选择约束。在平均预测精度方面,MCJMI与信息增益(IG)、最小冗余度最大相关性(mRMR)特征选择相比提升了6个百分点;与联合互信息(JMI)、最大化联合互信息(JMIM)相比提升了2个百分点;与LW向前搜索方法(SFS-LW)相比提升了1个百分点。在稳定性方面,MCJMI稳定性达到了0.92,优于JMI、JMIM、SFS-LW方法。实验结果表明MCJMI能够有效地提高特征选择的准确率与稳定性。  相似文献   

9.
信息网络结构特征作为影响关系生成与演化的主要因素在信息网络关系分类与推断领域占据重要地位.现有的关系分类与推断算法在处理网络结构特征的过程中,无法达到令人满意的效果.为此,结合互信息的定义,提出一种基于互信息特征选择的关系分类与推断算法.通过定义CN、AA、Katz等相似度指标充分抽取局部和全局(半全局)两类网络结构特...  相似文献   

10.
双聚类模型有助于聚类存在相关性的局部模式。论文提出了一种可识别多种相关模式的双聚类算法,以二次互信息作为相关性标准,并以Parzen窗口法有效估算高维变量之间的互信息;同时提出了最大相关维簇的概念。算法以多个最大相关维簇为种子,通过迭代细化聚类,可有效地发现高维数据环境内相关的长模式。真实基因表达数据的实验证明了算法的有效性。  相似文献   

11.
The evaluation of the relationships between clusters is important to identify vital unknown information in many real-life applications, such as in the fields of crime detection, evolution trees, metallurgical industry and biology engraftment. This article proposes a method called ‘mode pattern?+?mutual information’ to rank the inter-relationship between clusters. The idea of the mode pattern is used to find outstanding objects from each cluster, and the mutual information criterion measures the close proximity of a pair of clusters. Our approach is different from the conventional algorithms of classifying and clustering, because our focus is not to classify objects into different clusters, but instead, we aim to rank the inter-relationship between clusters when the clusters are given. We conducted experiments on a wide range of real-life datasets, including image data and cancer diagnosis data. The experimental results show that our algorithm is effective and promising.  相似文献   

12.
面向主题的概念检索研究   总被引:2,自引:1,他引:2  
该文提出了一种基于概念网络和主题概念树的面向主题的文本检索算法。依托概念网络建立主题概念树,利用主题概念树对用户的查询请求进行语义扩展,实现同义和语义蕴涵检索。关联度的计算模型考虑了词与词之间,句与句之间的语义激励。通过关联度在主题概念树上的传播模型,实现复合概念关联度的计算。检索结果按关联度大小降序排列。基于主题概念树的概念检索导航为用户检索提供了便利。  相似文献   

13.
该文提出一种基于模糊信息融合的目标空间分布结构探测算法,文中称之为S-Prim(SpatialPrim)算法,它是融合了模糊空间关系信息的受限Prim算法,用于识别具有规则空间分布关系的目标斑点集合。在很多情况下,目标之间会呈现出有规则的阵列分布关系。为检测这类关系,S-Prim算法将子目标相互之间的空间分布关系、距离关系,以及特征属性关系进行模糊信息融合,借助Prim算法生成最小支撑树的机制,评估邻近节点之间可能具备的某些有规则的空间分布关系,主动探测子目标之间可能存在的空间分布规律,并识别目标群。实验证明,该算法稳定有效。  相似文献   

14.
查询扩展是优化信息检索的有效途径。为此,提出一种基于语义分析的查询扩展方法,利用基于互信息的共现模型分析初检文档,并将其作为部分扩展源,用模型的统计结果剪枝由语义词典WordNet生成的语义树,限制扩展范围。从初检文档和语义词典两方面选取扩展词对原查询进行扩展形成新的查询集。对返回结果进行重排序,调整前n篇文档的查准率。实验证明该方法是切实可行的。  相似文献   

15.
有序分类是现实生活中广泛存在的一种分类问题。基于排序熵的有序决策树算法是处理有序分类问题的重要方法之一,这种方法是以排序互信息作为启发式来构建有序决策树。基于这项工作,通过引入模糊有序熵,并以模糊有序互信息作为启发式构建模糊有序决策树,对有序决策树进行了扩展。这两种算法在实际应用中各有自己的优劣之处,从四个方面对这两种算法进行了详细的比较,并指出了这两种算法的异同及优缺点。  相似文献   

16.
基于属性间交互信息的ID3算法   总被引:3,自引:0,他引:3  
启发式算法是决策树研究的核心。文中分析了最常见的一种决策树归纳启发式算法即ID3算法的不足,给出了一个改进版本,它在选择测试属性时不仅要求该属性带来的信息增益尽可能大,而且要求其与同一分支上已经使用过的各属性之间的交互信息尽可能小,从而避免了对冗余属性的选择,实现信息熵的真正减少。分析及实验结果表明,与ID3算法相比,该算法能构造出更优的决策树。  相似文献   

17.
基于重复模式的Web信息抽取   总被引:2,自引:1,他引:1  
网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录。  相似文献   

18.
基于重复模式的自动Web信息抽取   总被引:1,自引:2,他引:1  
互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需要人工干预。对10个在线购物网站进行了测试,实验结果表明提出的方法是有效的。  相似文献   

19.
针对强干扰背景下的微震信号提取,提出一种基于经验模态分解(Empirical Mode Decomposition,EMD)和互信息熵的自适应提取算法。通过EMD对微震信号进行分解,得到高频和低频两部分信号,并对分解得到的各阶固有模态分量求出能量和能量熵值。根据互信息准则,通过依次计算相邻分量能量熵之间的互信息值来区分高频和低频信号。将经过自适应阈值滤波后的高频信号和低频信号一起进行信号重构,得到新的微震信号。仿真结果表明,在对微震信号去噪时,该方法可以有效地去除噪声信号,信噪比均提升了10 dB以上。工程上的微震信号通过该方法处理后,也取得了较好的效果。  相似文献   

20.
特征选择是从原始数据集中去除无关的特征并选择良好的特征子集,可以避免维数灾难和提高学习算法的性能。为解决已选特征和类别动态变化(DCSF)算法在特征选择过程中只考虑已选特征和类别之间动态变化的信息量,而忽略候选特征和已选特征的交互相关性的问题,提出了一种基于动态相关性的特征选择(DRFS)算法。该算法采用条件互信息度量已选特征和类别的条件相关性,并采用交互信息度量候选特征和已选特征发挥的协同作用,从而选择相关特征并且去除冗余特征以获得优良特征子集。仿真实验表明,与现有算法相比,所提算法能有效地提升特征选择的分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号