首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 289 毫秒
1.
最大信息熵原理已被成功地应用于各种自然语言处理领域,如机器翻译、语音识别和文本自动分类等,提出了将其应用于互联网异常流量的分类。由于最大信息熵模型利用二值特征函数来表达和处理符号特征,而KDD99数据集中存在多种连续型特征,因此采用基于信息熵的离散化方法对数据集进行预处理,并利用CFS算法选择合适的特征子集,形成训练数据集合。最后利用BLVM算法进行参数估计,得到满足最大熵约束的指数形式的概率模型。通过实验,比较了最大信息熵模型和Naive Bayes、Bayes Net、SVM与C4.5决策树方法之间的精度、召回率、F-Measure,发现最大信息熵模型具有良好的综合性能,尤其在训练数据集样本数量有限的情况下仍然能保持较高的分类精度,在实际应用中具有广阔的前景。  相似文献   

2.
特征选择就是从特征集合中选择出与分类类别相关性强而特征之间冗余性最小的特征子集,这样一方面可以提高分类器的计算效率,另一方面可以提高分类器的泛化能力,进而提高分类精度。基于互信息的特征相关性和冗余性的评价准则,在实际应用中存在以下的问题:(1)变量的概率计算困难,进而影响特征的信息熵计算困难;(2)互信息倾向于选择值较多的特征;(3)基于累积加和的候选特征与特征子集之间冗余性度量准则在特征维数较高的情况下容易失效。为了解决上述问题,提出了基于归一化模糊互信息最大的特征评价准则,基于模糊等价关系计算变量的信息熵、条件熵、联合熵;利用联合互信息最大替换累积加和的度量方法;基于归一化联合互信息对特征重要性进行评价;基于该准则建立了基于前向贪婪搜索的特征选择算法。在UCI机器学习标准数据集上的多组实验,证明算法能够有效地选择出对分类类别有效的特征子集,能够明显提高分类精度。  相似文献   

3.
王娟  胡文军  王士同 《计算机应用》2011,31(9):2542-2545
为了提高多类问题的分类精度,提出最大边界模糊核超球(LMFKHB)算法。首先将样本数据通过核函数映射到高维数据特征空间,然后利用提出的方法找出各个判决函数;同时引入模糊隶属函数解决死区样本的错分问题,从而增强了算法适应性,提高了分类精度。人造数据和现实数据的实验结果表明最大边界模糊核超球算法具有较好的性能。  相似文献   

4.
传统机器学习和数据挖掘算法主要基于两个假设:训练数据集和测试数据集具有相同的特征空间和数据分布.然而在实际应用中,这两个假设却难以成立,从而导致传统的算法不再适用.迁移学习作为一种新的学习框架能有效地解决该问题.着眼于迁移学习的一个重要分支——归纳迁移学习,提出了一种基于最大熵模型的加权归纳迁移学习算法WTLME.该算法通过将已训练好的原始领域模型参数迁移到目标领域,并对目标领域实例权重进行调整,从而获得了精度较高的目标领域模型.实验结果表明了该算法的有效性.  相似文献   

5.
提出一种基于最大匹配分词算法的中文词语粗分模型,通过对最大匹配分词算法做出改进,解决了最大匹配分词算法所不能解决的一些问题,并得出较准确的粗分结果。该模型在重点考虑切分速度的同时兼顾了切分精度,是中文分词比较有效的词语粗分手段之一,适用于处理海量数据的中文分词系统。  相似文献   

6.
网络信息浩如烟海又纷繁芜杂,从中掌握最有效的信息是信息处理的一大目标,而文本分类是组织和管理数据的有力手段.由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,具有对许多问题的处理都可以达到较好的结果的优势,将最大熵模型引入到中文文本分类的研究中,并通过使用一种特征聚合的算法改进特征选择的有效性.实验表明与Bayes、KNN和SVM这三种性能优越的算法相比,基于最大熵的文本分类算法可取得较之更优的分类精度.  相似文献   

7.
对医学图像进行分类时,特征选择是影响分类准确率的非常重要的因素。针对医学图像的特殊性,以及目前提出的特征选择算法在应用于医学图像分类时效果不够理想等问题,提出一种基于邻域关系的模糊粗糙集模型,基于该模型给出特征选择算法,并将其应用于乳腺X光图像。实验结果表明,同已有的算法相比,该方法能有效选择特征,分类精度有较大的提升。  相似文献   

8.
特征选择是数据预处理中一项很重要的技术,主要从原始数据集的特征中选出一些最有效的特征以降低数据集的维度,从而提高学习算法性能.目前基于邻域粗糙集模型的特征选择算法中,由于没有考虑数据分布不均的问题,对象的邻域存在一定的缺陷.为了解决这个问题,采用方差来度量数据的分布情况,重新定义二元邻域空间,基于此提出自适应二元邻域空间的粗糙集模型,并将该模型与邻域直觉模糊熵结合作为特征评估的方式,进而构造相应的特征选择算法.UCI实验结果表明:所提出的算法能够选出更小且具有更高分类精度的特征子集,同时算法拥有更少的时间消耗.因此所提的特征选择算法具有更强的优越性.  相似文献   

9.
基于VPRSM的音频特征选择   总被引:1,自引:0,他引:1  
在音频索引中保持音频特征非常重要,但是在很多情况下特征数量又很庞大,直接处理这些海量数据是非常耗时的.特征选择作为数据挖掘的一个处理步骤,在特征维数的减少和非相关数据的约简方面已经有很成功的使用.提出了一种基于变精度粗糙集模型(variable precision rough setmodel,VPRSM)的音频特征选择算法.实验结果表明,该算法能够得到最小约简,并且最大程度地保持了音频数据的特征,提高检索效率.  相似文献   

10.
研究了基于模糊交互式多模型算法解决多假设多目标跟踪中的新目标数据相关问题。使用模糊交互式多模型算法处理新目标的数据相关问题,能够提高跟踪精度、时间效率。用隶属度表示每个模型与所跟踪新目标的隶属关系,根据隶属度选择最佳的模型对新目标进行跟踪。仿真结果表明,该方法不仅能够处理新目标的数据相关,同时又能够提高算法的时间效率。  相似文献   

11.
模糊粗糙集由于能够处理实数值数据,甚至是混合值数据中的不确定性受到人们的广泛关注,其最重要的应用之一是特征选择,相关的特征选择方法已有不少研究,但其快速的特征选择算法研究很少。实际中的数据一般含有噪声点或信息含量低的样例,如果对数据集先筛选出代表样例,再对筛选的样例集进行数据挖掘便会降低挖掘计算量。本文基于模糊粗糙集,先根据样例的模糊下近似值对样例进行筛选,然后利用筛选样例的模糊粗糙信息熵构造特征选择的评估度量,并给出相应的特征选择算法,从而降低了算法的计算复杂度。数值试验表明该快速算法具有有效性,并且对控制筛选样例个数的参数给出了建议。  相似文献   

12.
The data of dissolved gas in oil analysis (DGA) is uncertain affected by the influence of transformer capacity and fault location, which makes transformer fault diagnosis model based on DGA has low accuracy. Therefore, we propose a hybrid feature selection method based on fuzzy information entropy, whereby optimizing the reasonable DGA feature parameter according to the feature information between the parameter and fault type, to reduce the influence of DGA data uncertainty on the fault diagnosis accuracy. Firstly, the characteristic relevance and redundancy functions are constructed based on fuzzy information entropy theory. Secondly, these functions are taken as the optimization objectives of binary-chaotic multi-objective particle swarm optimization algorithm(B-CMOPSO), to search for the feature subsets in the feature space composed of 46 DGA feature parameters. Then, the optimal feature subset is selected based on the simulation accuracy of ELM, SVM, Adaboost.M1 and BPNN on the feature subsets. Finally, 30 simulation experiments are carried out to compare with several multi-objective optimization algorithms, common Filter methods and common DGA feature combinations, and the rationality of the proposed method is verified by the t-test method. The results show that the 4 classifiers accuracy means is maximatily improved by 18.95%, 20.77%, 19.85% and 21.27% respectively compared with common DGA feature combinations, indicating that the optimal feature subset preserves more feature information and can effectively reduce the influence of DGA data uncertainty on diagnostic accuracy.  相似文献   

13.
为了减少协同过滤算法存在的噪音数据以及数据稀疏性问题,提高算法准确性,本文提出一种基于信息熵和改进相似度的协同过滤算法,使用用户信息熵模型来判断噪音数据,排除噪音数据对实验结果的干扰;使用面向稀疏数据的改进相似度计算方法,使用全部评分数据而不是依靠共同的评分项来计算,对缓解稀疏数据对推荐结果的精确性影响有很大帮助。实验结果表明,该算法能在一定程度上排除噪音数据对结果的影响,缓解数据稀疏对推荐结果精确性的干扰,提高该推荐算法的精确性,且缓解了传统推荐系统算法中常见的一些问题,与传统的协同过滤算法相比,该算法的精确性更高。  相似文献   

14.
实际应用中,数据常常表现出不完备性和动态性的特点.针对动态不完备数据中的特征选择问题,提出了一种基于相容粗糙集模型和信息熵理论的增量式特征选择方法.首先,建立了不完备信息系统中特征值动态更新时论域上条件划分与决策分类的动态更新模式,分析了作为特征重要度评价准则的不完备相容信息熵的增量计算机制,并将该机制引入到启发式最优...  相似文献   

15.
针对维汉机器翻译中未登录词和译文乱序问题严重的现象, 结合维吾尔语粘着性语言特点以及最大熵分类算法, 提出了一种基于粘着性模糊规则的维汉机器翻译最大熵调序模型。该模型以最大熵模型为基础, 在维吾尔语词级别构建粘着性规则约束, 从训练语料中提取更加有效的调序规则来指导翻译解码过程。实验证明, 与当前主要MSD(mono、swap、discontinuous)等调序方法相比, 该方法较好地体现了维吾尔语的粘着性特点, 提高了译文质量。  相似文献   

16.
提出了一种基于二次Renyi's熵的正则化互信息特征选择方法,该方法能高效地对互信息进行估计从而使计算复杂度大大降低。同时把正则化互信息特征选择方法与嵌入式方法相结合得到一个两段式特征选择算法,该算法可以找出更具特征的特征子集。通过实验比较了该方法与其他基于互信息的特征选择算法的效率与分类精度,结果表明该方法能够有效改善计算复杂度。  相似文献   

17.
入侵检测技术旨在有效地检测网络中异常的攻击,对网络安全至关重要.针对传统的入侵检测方法难以从工业控制系统通信数据中提取有效数据特征的问题,提出一种基于相关信息熵和CNN-BiLSTM的入侵检测模型,该模型将基于相关信息熵的特征选择和融合的深度学习算法相结合,因此能够有效去除噪声冗余,减少计算量,提高检测精度.首先针对不平衡样本等问题进行相应预处理,并通过基于相关信息熵的算法进行特征选择,达到去除噪声数据和冗余特征的目的;然后分别运用卷积神经网络(CNN)和双向长短期记忆神经网络(BiLSTM)从时间和空间维度提取数据特征,通过多头注意力机制进行特征融合,进而得出最终检测结果;最后通过单一变量原则和交叉验证方式获得最优的模型.通过与其他传统入侵检测方法实验对比得出:该模型具有更高的准确率(99.21%)和较低的漏报率(0.77%).  相似文献   

18.
张伍  陈红梅 《计算机应用》2020,40(5):1425-1430
波段选择能有效减少高光谱数据的空间冗余,为后续分类提供有效的支持。多核模糊粗糙集模型能够对包含不确定性的数值数据进行分析和近似描述,而蝗虫优化算法对优化问题求解具有较强的探索和开发能力,因而将多核模糊粗糙集模型引入高光谱的不确定性分析建模中,采用蝗虫优化算法对波段子集进行选择,提出了一种基于多核模糊粗糙集与蝗虫优化算法的高光谱波段选择算法。首先,使用多核算子来进行相似性度量,提高模型对数据分布的适应性。定义基于核模糊粗糙集的波段相关性度量,通过模糊粗糙集中不同像素点地物上的下近似分布来度量波段之间的相关性。然后,综合考虑波段依赖度、波段信息熵、波段间相关性来定义波段子集的适应度函数。最后,在常用高光谱数据集Indiana Pines农业区上,采用J48和K近邻(KNN)作为分类算法,把所提算法与波段相关性分析(BCA)、标准化互信息(NMI)算法进行分类性能比较。实验结果表明,在选取较少波段个数时,所提算法的总体平均分类精度提高了2.46和1.54个百分点。  相似文献   

19.
经典的人工蜂群(artificial bee colony, ABC)算法面临着收敛速度慢、易陷入局部最优等不足,因此基于该算法来进行特征选择还存在很多问题.对此,提出了一种基于粒度粗糙熵与改进蜂群算法的特征选择方法FS_GREIABC.首先,将粗糙集中的知识粒度与粗糙熵有机地结合起来,提出一种新的信息熵模型——粒度粗糙熵;其次,将粒度粗糙熵应用于ABC算法中,提出一种基于粒度粗糙熵的适应度函数,从而获得了一种新的适应度计算策略;第三,为了提高ABC算法的局部搜索能力,将云模型引入到跟随蜂阶段.在多个UCI数据集以及软件缺陷预测数据集上的实验表明,相对于现有的特征选择算法, FS_GREIABC不仅能够选择较少的特征,而且具有更好的分类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号