首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于类别分布差异和VPRS特征选择的文本分类方法   总被引:3,自引:0,他引:3  
权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。  相似文献   

2.
通过在不同文本数据集上的试验表明,文中提出的算法具有不错的表现。与文本分类中常用的特征选择算法IG、CHI相比,文中算法是有效的且能够提高分类的精确率。  相似文献   

3.
提出了一种基于类的混合概率分类方法.该方法为每一类文本独立选取能代表其本质特性的主要特征,即不同类型的文本由不同的主要特征表示,并基于各类的主要特征分别为每类文本建立相应的概率分布模型,然后再根据朴素贝叶斯方法对未知类型的文本进行分类.实验结果表明:该方法简单有效且易于实现.  相似文献   

4.
文本分类中特征选择方法研究   总被引:2,自引:0,他引:2  
对四种特征选择方法:互信息、信息增益、x2统计和期望交叉熵作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、宏平均和微平均对四种特征选择方法分别进行评估,提出并讨论了互信息修正的两种方法.  相似文献   

5.
牛洪波  丁华福 《信息技术》2007,31(12):100-102
针对目前网络上不良信息变换不同方式逃脱过滤以及中文分词器分词后存在的问题,提出了基于文本分类技术的信息过滤方法,通过在原有的文本自动分类系统中添加三个过滤模块,以过滤掉无用信息、单个独立字、敏感信息等不良内容,从而保障分类安全高效。  相似文献   

6.
目前在文本分类领域较常用到的特征选择算法中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视.在特征相关性分析的基础上,提出了一种新的算法,改进了特征选择算法中所出现的上述问题.实验验证了算法的可行性和有效性.  相似文献   

7.
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的.  相似文献   

8.
针对不良文本的过滤问题,文章提出了一种基于SVM分类器改进的文本过滤方法。该方法将传统的基于词语的分类方法改为基于词语元组的分类,增强了特征项的分辨率,实验表明该方法同传统的过滤方法相比具有较高的准确率和召回率。  相似文献   

9.
一种基于改进K-means聚类的文本特征选择模型   总被引:1,自引:1,他引:1  
介绍了文本聚类中基于划分的方法,针对该算法对孤立点的过于敏感问题,提出了一种用于特征选择的算法改进模型,通过对特征集里孤立点的剔除改善了特征聚类效果.随后的文本分类试验表明,提出的改进的算法具有较好的特征选择效果,文本分类的效率较高.  相似文献   

10.
适用于不确定文本分类的特征选择算法   总被引:1,自引:0,他引:1  
王博  贾焰  杨树强  周斌 《通信学报》2009,30(8):32-38
基于Hilbert-Schmidt依赖性准则提出了一种新颖的特征选择算法FSUNT,重点考虑特征选择过程中可能出现的模糊性和不确定性.针对类标号不确定而其他特征值确定的文本数据,通过考察特征与不确定的类标号间的Hilbert-Schmidt相关性,对特征进行排序,并选取最终的结果子集.最后大量真实与仿真实验结果表明,基于该算法可得到良好的分类效果和稳定性.  相似文献   

11.
随着Intemet在全世界的应用和普及,网络跟人们的生活越来越紧密,人们在使用网络的同时,不可避免地接触到大量的不良信息,为了过滤网络信息,出现了网络信息过滤。本文首先采用向量空间模型表示文本,给出了一个基于遗传算法的文本特征选择方法。同时为了克服遗传算法所存在着的收敛速度慢、易陷入局部最优等缺陷,文中采用了候选特征子集,并增加了一个扩展操作。最后,通过实验验证了该方法的有效性。  相似文献   

12.
文本分类中改进型互信息特征选择的研究   总被引:5,自引:2,他引:3  
互信息是文本分类中常用的特征选择方法.提出了一种新的基于互信息的特征选择方法.首先分析了特征选择影响文本分类精度的因素,将这些因素组合起来表征特征对于分类的强弱,并用公式直观地表示由组合因素计算出的特征值,根据这些值得大小选择对分类影响大的特征.最后理论证明了其可行性,并通过实验证明了该方法在提高分类精度方面比传统方法提高了10%.  相似文献   

13.
基于两种特征影响度的特征选择   总被引:1,自引:1,他引:0  
定义了两种特征影响度:一种是特征对类间文档分散程度的影响度,该影响度越大越好;另一种是特征对类内文档分散程度的影响度,该影响度越小越好.然后把这两种特征影响度有机地结合起来设计了一个新的特征选择方法.该方法能够对所选特征进行综合考虑,从而使获得的特征集具有较好的代表性.仿真实验表明,所提特征选择方法在一定程度上能够提高文本分类性能.  相似文献   

14.
提出了一种基于特征选择和特征抽取的混合型文本特征降维方法.通过一种改进的优势率方法进行初次特征选择,将文本表示为以类别属性为行向量的矩阵形式;再使用一种改进的最大散度差特征抽取方法进行二次特征抽取.在最大限度减少信息损失的前提下实现了文本特征的二次降维.对中文文本的分类实验结果表明,提出的特征降维方法具有良好的分类效果.  相似文献   

15.
王晓微 《电子技术》2007,34(11):132-134
由于网络的发展,中文文本的分类技术也有待提高.向量空间模型是中文文本分类中常用的模型,词作为中文文本的特征,其维数很高,如此高的维数对分类并不是都有用的.所以对特征的选择尤为重要,文章通过两种分类器对多种特征选择方法在同一平面内进行比较,将分类器的各种参数设为最优状态,得到了IG的分类效果较好,并且利用了平均查全率对不同的特征选择方法进行纵向与横向的比较,实验证明,SVM整体的分类效果要优于KNN的分类效果.  相似文献   

16.
刘洺辛  陈晶  王麒媛 《电信科学》2018,34(10):85-95
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。  相似文献   

17.
基于位置的文本特征加权方法研究   总被引:4,自引:1,他引:4  
TF-IDF是文本特征赋权的常用方法.该方法简单易行,但没有考虑位置因素对特征赋权的影响.通过修改因子,分析不同条件下文本表现形式的差异,提出3个基于位置的文本特征加权方法.随后的文本分类试验表明.此加权模型相比较于传统的方法,均具有较好的文本标注效果.  相似文献   

18.
图像分割是图像处理中的重要问题,通常的图像分割法包括阈值法、边缘检测法、区域跟踪法等。其中,阈值法是图像分割的一种重要方法,在图像处理与识别中广泛应用。考虑到交叉熵阈值法的计算时间量较大的问题,提出一种基于χ2-散度的图像阈值化分割新准则。实验结果表明,这里提出的图像分割准则是可行的,且计算所需时间相对交叉熵阈值法要小很多,非常适合于对实时性要求较高的应用场合。  相似文献   

19.
论文提出了一种基于邻近类别分类的邮件过滤系统模型,并介绍了系统涉及到的文本特征选择、贝叶斯分类算法等关键技术,最后给出了评价方法与实验结果。结果表明,该方法能够显著地提高系统对于垃圾邮件的查准率。  相似文献   

20.
文章介绍了中文文本分类系统的基本过程及其关键技术,比较和分析Rocchio、朴素贝叶斯(NB)、kNN三种文本分类算法的分类原理,提出了中文文本分类系统的结构模型,并给出了评估方法和实验结果,测试结果表明KNN算法的分类效果最佳。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号