首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 108 毫秒
1.
刘洺辛  陈晶  王麒媛 《电信科学》2018,34(10):85-95
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。  相似文献   

2.
文本分类中特征选择方法研究   总被引:2,自引:0,他引:2  
对四种特征选择方法:互信息、信息增益、x2统计和期望交叉熵作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、宏平均和微平均对四种特征选择方法分别进行评估,提出并讨论了互信息修正的两种方法.  相似文献   

3.
面向现代战场中各类感知设备产生海量实时数据,消除冗余及无关数据是提升信息质量,降低军事信息系统资源开销的关键技术。提出了一种基于特征选择的数据降维方法,实验结果表明该方法能够大幅消减噪音数据,有效提升信息质量,降低系统开销,适用于现代战争环境。  相似文献   

4.
中文文本分类中的特征选择算法研究   总被引:34,自引:0,他引:34  
比较了文档频率、信息增益、互信息、X^2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家“八六三计划”中文文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。  相似文献   

5.
特征证选择算法在文本分类中非常重要,本文就对其在层次分类中的应用进行了分析。通过比较DF,MI,和χ^2三个经典的特征选择算法在20NewsGroups数据集的表现,我们发现在SVMLight分类器下χ^2方法在层次分类中能够表现的更优秀,实验结果显示它在各个不同的特征维数下都能够保持稳定的优势。  相似文献   

6.
特征选择是机器学习和模式识别领域的一个关键问题。文中详细分析研究一类基于K近邻分类间隔的特征选择算法,并着重讨论当K〉1时,特征选择的评价准则和搜索策略的设计,同时在多个数据集上验证其性能。  相似文献   

7.
文本分类中改进型互信息特征选择的研究   总被引:5,自引:2,他引:3  
互信息是文本分类中常用的特征选择方法.提出了一种新的基于互信息的特征选择方法.首先分析了特征选择影响文本分类精度的因素,将这些因素组合起来表征特征对于分类的强弱,并用公式直观地表示由组合因素计算出的特征值,根据这些值得大小选择对分类影响大的特征.最后理论证明了其可行性,并通过实验证明了该方法在提高分类精度方面比传统方法提高了10%.  相似文献   

8.
特征加权支持向量机   总被引:23,自引:1,他引:23  
该文针对现有的加权支持向量机(WSVM)和模糊支持向量机(FSVM)只考虑样本重要性而没有考虑特征重要性对分类结果的影响的缺陷,提出了基于特征加权的支持向量机方法,即特征加权支持向量机(FWSVM)。该方法首先利用信息增益计算各个特征对分类任务的重要度,然后用获得的特征重要度对核函数中的内积和欧氏距离进行加权计算,从而避免了核函数的计算被一些弱相关或不相关的特征所支配。理论分析和数值实验的结果都表明,该方法比传统的SVM具有更好的鲁棒性和分类能力。  相似文献   

9.
杜娟  孙君顶 《激光与红外》2013,43(3):315-308
利用图像特征加权方法和支持向量机实现了图像的有效分类。首先根据特征的稳定性来判断特征的重要程度,从而赋予不同权重;然后借助支持向量机实现图像分类;最后采用不同颜色和纹理特征验证了在特征加权和不加权情况下图像分类的准确程度。实验结果表明本文的方法有效提高了图像分类的准确性。  相似文献   

10.
《信息技术》2019,(2):53-57
随着信息技术的飞速发展以及网民规模的扩大,互联网数据量与日俱增,其中含有大量非结构化文本数据,因此,文中分类已成为当前的研究热点。特征选择的好坏直接影响文本分类的精度。传统单一的特征选择方法侧重点不同,使用不同的特征选择方法选择后的特征子集可能差别较大,进而导致不稳定的分类结果。文中提出了一种混合CHI与IG的特征选择方法,引入了融合特征的指标SOM(Score of Mixed),将特征根据SOM值排序,通过预定的阈值进行特征筛选,得出相对稳定且具代表性的特征子集。实验结果表明,使用该方法进行特征选择,文本分类的效果相比使用其他特征选择方法有一定的提升。  相似文献   

11.
提出了一种新的音乐分类方法,该方法使用线性判别分析(LDA)和支持向量机(SVMs)对音乐数据进行分类。在实现音乐分类中,先使用傅里叶变换等方法从每一段音乐中提取音频特征,包括Mel倒谱系数及基音频率等,并将它们按比例组成一个高维向量;再使用LDA对这些高维向量进行降维,使得各类音乐的类间离散度与类内离散度的比值最大;最后使用SVM等4种分类器对降维后的特征进行分类。实验证明LDA及SVM使得音乐分类的精确度有了较大的提高。  相似文献   

12.
在线流特征选择通过实时过滤无关特征和冗余特征,实现流特征空间降维.针对已有算法,如Alpha-investing分类精度低、SAOLA选择特征数多和OSFS在低冗余高相关数据集下运行时间长的问题,提出了一种面向分类的流特征在线特征选择算法——OSFIC.算法运用四层过滤框架,通过无条件独立过滤不相关新特征、单条件下互信息过滤冗余新特征和候选特征集合中的部分冗余特征,最后通过多条件独立过滤候选特征集中的剩余冗余特征,最终得到分类标签的近似马尔可夫毯.为了分析OSFIC的性能,选择了NIPS 2003和Causality Workbench中的数据集,从预测精度、特征数量、运行时间和AUC方面与已有基准算法进行比较.实验表明,OSFIC平均分类精度比Alpha-investing提升4.41%.在保证精度的前提下,平均特征数量比SAOLA减少41.9%,运行时间比OSFS减少91.59%.最后,在真实的应用场景下验证了OSFIC的有效性.  相似文献   

13.
基于稳定特征的虹膜分类算法   总被引:2,自引:1,他引:2       下载免费PDF全文
虹膜分类中,由于虹膜的相似度计算会受到特征模板中不可靠和不固定特征的影响,使得虹膜分类的错误率(错误识别率+错误拒绝率)增加.为了解决这个问题,本文提出了一种稳定特征提取的方法,从同一虹膜的多个图像中提取虹膜的稳定特征,并利用这些稳定特征建立该虹膜的特征模板,然后用于虹膜的分类.采用CASIA虹膜数据库进行测试,仿真结果表明,基于稳定特征的虹膜分类算法能提高虹膜分类精度和改善虹膜识别系统性能.  相似文献   

14.
网络新闻自动分类已经成为当下的热点问题,SVM分类算法是文本分类中应用较为成熟的一种方法.文章针对SVM文本分类中特征选择和核函数选择的两个重要问题,在新闻文本实验环境下进行了探讨,结果表明使用互信息特征选择法且特征数在4000左右,使用SIGMOID核函数的情况下准确率与召回率均可达到97%的分类效果.  相似文献   

15.
Human faces can convey substantial information about a person, such as his or her age, race, identity, gender, and emotions. Such facial information can be obtained through techniques like human facial tracking and detection, facial recognition, gender classification, emotion recognition, as well as age estimation. Of these, gender classification is particularly important due to its diverse applications in the fields such as video surveillance and commercial advertising. In this thesis, we propose a method of gender classification based on run-length histograms. The proposed method uses a run-length histogram to record the position information of pixels, thereby efficiently improves the recognition rate and makes the technique suitable for a big-data multimedia database. The experimental results show that the proposed method can achieve better accuracy than a multi-scale based method can.  相似文献   

16.
论文提出了一种基于邻近类别分类的邮件过滤系统模型,并介绍了系统涉及到的文本特征选择、贝叶斯分类算法等关键技术,最后给出了评价方法与实验结果。结果表明,该方法能够显著地提高系统对于垃圾邮件的查准率。  相似文献   

17.
领域术语自动抽取及其在文本分类中的应用   总被引:11,自引:1,他引:11       下载免费PDF全文
本文提出了一种基于信息熵的领域术语抽取方法,在给定领域分类语料的前提下,该方法既考虑了领域术语在不同领域类别间分布的不均匀性,又考虑了其在特定领域类别内分布的均匀性,并针对语料的不平衡性进行了正规化.人工评测显示该方法能更准确有效地抽取领域术语.本文还将该算法应用于文本分类,用于代替传统特征选择算法,实验表明,该算法能够显著提高文本分类的精度.  相似文献   

18.
飞机机身的非刚性振动、航行姿态的改变以及机上旋转部件的转动等均会引发对其雷达回波的非线性调制,采用多重分形测度可以对飞机回波的此类调制特征进行细致的刻画。文中引入方差分形维轨迹(VFDT)这一种新的多重分形算法对飞机回波进行特性分析和特征提取,基于提出的VFDT特征并结合支持向量机(SVM),对实际录取的多种类型飞机回波进行了目标分类识别实验。实验结果表明,VFDT特征可以较好地对多种不同类型的飞机目标进行分类辨识,并具有较小的计算量。  相似文献   

19.
在遥感数据处理研究中,高维高光谱数据的冗余信息和噪声严重影响高光谱数据的分类精度,针对此问题提出基于互信息波段选择和经验模态分解的高精度高光谱数据分类算法(MI-EMD-SVM).分别采用基于互信息波段选择方法和经验模态分解实现对高光谱数据的冗余信息处理和特征提取,并获得处理后的高光谱数据X'.采用支持向量机分类算法...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号