共查询到16条相似文献,搜索用时 125 毫秒
1.
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。 相似文献
2.
基于信息增益改进贝叶斯模型的汉语词义消歧 总被引:2,自引:0,他引:2
词义消歧一直是自然语言处理领域的关键问题和难点之一。通常把词义消歧作为模式分类问题进行研究,其中特征选择是一个重要的环节。该文根据贝叶斯假设提出基于信息增益的特征选择方法,并以此改进贝叶斯模型。通过信息增益计算,挖掘上下文中词语的位置信息,提高贝叶斯模型知识获取的效率,从而改善词义分类效果。该文在8个歧义词上进行了实验,结果发现改进后的贝叶斯模型在消歧正确率上比改进前平均提高了3.5个百分点,改进幅度较大,效果突出,证明了该方法的有效性。 相似文献
3.
4.
智能音箱在智能家居系统中扮演着重要的角色,大量的用户隐私数据存在于智能音箱流量数据包中,因此智能音箱流量分类是一项十分重要的研究课题。本文通过对智能音箱网络流量数据进行采集,然后进行预处理,得到特征数据集,再通过联合信息增益与Pearson相关系数的方法对特征数据集进行特征选择,得到特征子集;根据特征子集,通过网络流量分类器实现智能音箱网络流量的分类。实验结果表明本文中采用的联合信息增益与Pearson相关系数对智能音箱流量进行特征选择的方式,提高了分类器的性能。 相似文献
5.
6.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率. 相似文献
7.
基于改进权重计算的话题跟踪 总被引:1,自引:0,他引:1
话题跟踪(Topic Tracking)任务是话题识别与跟踪(Topic Detection and Tracking,简称TDT)中的一个子任务,它的目的是监控新闻报道流识别出与预先给定的几个新闻报道所表述的话题相关的后继报道。特征项权重的计算方法是话题跟踪中的一个重要问题,计算方法的选择关系到话题跟踪的效果。提供了一种改进的权重计算方法,该方法的主要思想是:在计算特征项的权重时考虑了特征项的位置信息,将特征项的位置信息作为加权来计算特征项的权重。实验结果表明该方法有效,并提高了跟踪系统的性能。 相似文献
8.
提出了一种基于特征选择和特征抽取的混合型文本特征降维方法.通过一种改进的优势率方法进行初次特征选择,将文本表示为以类别属性为行向量的矩阵形式;再使用一种改进的最大散度差特征抽取方法进行二次特征抽取.在最大限度减少信息损失的前提下实现了文本特征的二次降维.对中文文本的分类实验结果表明,提出的特征降维方法具有良好的分类效果. 相似文献
9.
改进的KNN文本分类算法 总被引:1,自引:0,他引:1
而文本自动分类,作为一种有效的提高文本检索速度和准确率的方法,在电子文本信息管理中起着非常重要的作用。KNN算法作为一种非常简单,但是有效的文本分类算法,被广泛运用。针对传统KNN算法中对特征项的非监督权重分配的不足之处做了改进,采取x2统计量方法和信息增益这两种监督权重分配方法,有效地利用了训练集标签信息,提高了KNN算法的精确度。 相似文献
10.
11.
面向现代战场中各类感知设备产生海量实时数据,消除冗余及无关数据是提升信息质量,降低军事信息系统资源开销的关键技术。提出了一种基于特征选择的数据降维方法,实验结果表明该方法能够大幅消减噪音数据,有效提升信息质量,降低系统开销,适用于现代战争环境。 相似文献
12.
13.
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的. 相似文献
14.
Feature selection is one of the important topics in text classification. However, most of existing feature selection methods are serial and inefficient to be applied to massive text data sets. In this ease, a feature selection method based on parallel collaborative evolutionary genetic algorithm is presented. The presented method uses genetic algorithm to select feature subsets and takes advantage of parallel collaborative evolution to enhance time efficiency, so it can quickly acquire the feature subsets which are more representative. The experimental results show that, for accuracy ratio and recall ratio, the presented method is better than information gain, x2 statistics, and mutual information methods; the consumed time of the presented method with only one CPU is inferior to that of these three methods, but the presented method is superior after using the parallel strategy. 相似文献
15.
Multidimensional Systems and Signal Processing - A new filter method is proposed for feature selection and ranking that incorporates a novel mutual information with Gaussian gain for evaluating the... 相似文献