首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 125 毫秒
1.
刘洺辛  陈晶  王麒媛 《电信科学》2018,34(10):85-95
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。  相似文献   

2.
基于信息增益改进贝叶斯模型的汉语词义消歧   总被引:2,自引:0,他引:2  
词义消歧一直是自然语言处理领域的关键问题和难点之一。通常把词义消歧作为模式分类问题进行研究,其中特征选择是一个重要的环节。该文根据贝叶斯假设提出基于信息增益的特征选择方法,并以此改进贝叶斯模型。通过信息增益计算,挖掘上下文中词语的位置信息,提高贝叶斯模型知识获取的效率,从而改善词义分类效果。该文在8个歧义词上进行了实验,结果发现改进后的贝叶斯模型在消歧正确率上比改进前平均提高了3.5个百分点,改进幅度较大,效果突出,证明了该方法的有效性。  相似文献   

3.
烟丝化学成分可以由实验方法提取出来,但其关键致香成分很难确定。针对这一问题,一般采用化学分析方法,但分析耗时比较长。根据烟丝化学成分与香气风格关系,使用基于信息增益的特征选择方法进行提取致香成分。通过计算烟丝化学成分中的每个属性的信息增益,从中挑选出信息增益大于。的值作为特征选择的结果进行分类预测。实验结果表明,使用该方法能够得到较准确的关键致香成分,与传统特征选择方法相比,其特征数据集的分类结果也更加准确,可以作为烟叶香型分类的有效工具。  相似文献   

4.
智能音箱在智能家居系统中扮演着重要的角色,大量的用户隐私数据存在于智能音箱流量数据包中,因此智能音箱流量分类是一项十分重要的研究课题。本文通过对智能音箱网络流量数据进行采集,然后进行预处理,得到特征数据集,再通过联合信息增益与Pearson相关系数的方法对特征数据集进行特征选择,得到特征子集;根据特征子集,通过网络流量分类器实现智能音箱网络流量的分类。实验结果表明本文中采用的联合信息增益与Pearson相关系数对智能音箱流量进行特征选择的方式,提高了分类器的性能。  相似文献   

5.
《现代电子技术》2019,(17):183-186
针对数字图书馆领域中的中文图书书目自动化分类问题,提出一种基于极限学习机的自动化图书信息分类方法。首先使用基于统计的分词方法对图书信息进行预处理形成特征项集合,并采用信息增益(IG)实现特征选择,从而减少特征项的数量;然后通过基于TF-IDF特征权重的向量空间模型进行文本表示;最后采用机器学习算法中的极限学习机对图书语料进行学习和测试。实验结果表明,相比朴素贝叶斯分类、K最近邻策略分类和支持向量机分类,基于极限学习机的分类方法可以有效实现图书自动分类过程,并具有较高的准确率和分类效果。  相似文献   

6.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.  相似文献   

7.
基于改进权重计算的话题跟踪   总被引:1,自引:0,他引:1  
话题跟踪(Topic Tracking)任务是话题识别与跟踪(Topic Detection and Tracking,简称TDT)中的一个子任务,它的目的是监控新闻报道流识别出与预先给定的几个新闻报道所表述的话题相关的后继报道。特征项权重的计算方法是话题跟踪中的一个重要问题,计算方法的选择关系到话题跟踪的效果。提供了一种改进的权重计算方法,该方法的主要思想是:在计算特征项的权重时考虑了特征项的位置信息,将特征项的位置信息作为加权来计算特征项的权重。实验结果表明该方法有效,并提高了跟踪系统的性能。  相似文献   

8.
提出了一种基于特征选择和特征抽取的混合型文本特征降维方法.通过一种改进的优势率方法进行初次特征选择,将文本表示为以类别属性为行向量的矩阵形式;再使用一种改进的最大散度差特征抽取方法进行二次特征抽取.在最大限度减少信息损失的前提下实现了文本特征的二次降维.对中文文本的分类实验结果表明,提出的特征降维方法具有良好的分类效果.  相似文献   

9.
改进的KNN文本分类算法   总被引:1,自引:0,他引:1  
而文本自动分类,作为一种有效的提高文本检索速度和准确率的方法,在电子文本信息管理中起着非常重要的作用。KNN算法作为一种非常简单,但是有效的文本分类算法,被广泛运用。针对传统KNN算法中对特征项的非监督权重分配的不足之处做了改进,采取x2统计量方法和信息增益这两种监督权重分配方法,有效地利用了训练集标签信息,提高了KNN算法的精确度。  相似文献   

10.
K-最近邻(K-nearest neighbor,简称KNN)算法是一种在人工智能领域如专家系统、数据挖掘、模式识别等方面广泛应用的算法.该算法简单有效,易于实现,但是其K值难以确定,而且分类结果易受单个属性干扰.文中提出了一种简单易行的K值确定方法,并利用Quinlan信息增益理论,提出了基于信息增益的K-最近邻改进算法.通过实验证明,改进后的K-NN算法具有较强的抗干扰能力和较好的精确性.  相似文献   

11.
面向现代战场中各类感知设备产生海量实时数据,消除冗余及无关数据是提升信息质量,降低军事信息系统资源开销的关键技术。提出了一种基于特征选择的数据降维方法,实验结果表明该方法能够大幅消减噪音数据,有效提升信息质量,降低系统开销,适用于现代战争环境。  相似文献   

12.
入侵检测中基于SVM的两级特征选择方法   总被引:2,自引:0,他引:2  
针对入侵检测中的特征优化选择问题,提出基于支持向量机的两级特征选择方法。该方法将基于检测率与误报率比值的特征评测值作为特征筛选的评价指标,先采用过滤模式中的Fisher分和信息增益分别过滤噪声和无关特征,降低特征维数;再基于筛选出来的交叉特征子集,采用封装模式中的序列后向搜索算法,结合支持向量机选取最优特征子集。仿真测试结果表明,采用该方法筛选出来的特征子集具有更好的分类性能,并有效降低了系统的建模时间和测试时间。  相似文献   

13.
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的.  相似文献   

14.
Feature selection is one of the important topics in text classification. However, most of existing feature selection methods are serial and inefficient to be applied to massive text data sets. In this ease, a feature selection method based on parallel collaborative evolutionary genetic algorithm is presented. The presented method uses genetic algorithm to select feature subsets and takes advantage of parallel collaborative evolution to enhance time efficiency, so it can quickly acquire the feature subsets which are more representative. The experimental results show that, for accuracy ratio and recall ratio, the presented method is better than information gain, x2 statistics, and mutual information methods; the consumed time of the presented method with only one CPU is inferior to that of these three methods, but the presented method is superior after using the parallel strategy.  相似文献   

15.
Multidimensional Systems and Signal Processing - A new filter method is proposed for feature selection and ranking that incorporates a novel mutual information with Gaussian gain for evaluating the...  相似文献   

16.
中文文本分类中的特征选择算法研究   总被引:34,自引:0,他引:34  
比较了文档频率、信息增益、互信息、X^2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家“八六三计划”中文文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号