首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
一种基于本体论的文本特征选取方法   总被引:1,自引:0,他引:1  
针对文本特征向量高维数的问题,给出了一种基于本体论的文本特征选取方法.通过由专业领域本体所建立的概念树,把文本的特征项映射到概念,同时进行了特征项频度到概念频度的转换,使得选取得到的特征概念能够很好表征文本的内容.实验结果表明,与未进行特征概念选取相比,采用此方法选取得到的特征概念能够在尽可能减少对文本分类精度的影响下,达到降低特征维数的目的.  相似文献   

2.
借鉴已有的特征选取方法和粗糙集相关理论,本文提出了一种改进的基于粗糙集理论的特征选择方法,其主要思想是通过构造粒度函数将其应用于特征在分类中的重要性度量和约简,最后通过实验验证了该方法是有效的,并能够显著降低文本特征维数,提高分类的效率和精度。  相似文献   

3.
一种基于粗糙集理论的文本分类方法   总被引:1,自引:0,他引:1  
在网络这个庞大的虚拟图书馆中,占信息比重最大的文本数据却缺乏结构化、组织化的规整性,大大降低了网络文本信息的利用效率,而文本的自动分类技术则能降低网络的查询时间,提高网络搜索质量。文章提出了一种基于粗糙集理论的文本分类方法。  相似文献   

4.
利用CHI值特征选取和前向神经网络的覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。该方法利用CHI值进行特征选取即特征降维,应用覆盖算法进行文本分类。该方法将CHI值特征选取和覆盖算法充分结合,在提高了分类速度的同时还保证了分类的准确度。应用该方法对标准数据集中的文本进行实验,并在不同的维数上与SVM算法、朴素贝叶斯方法的实验结果进行了比较。结果表明,与SVM算法和朴素贝叶斯方法相比较,覆盖算法在准确度上更好。并且,维数的选择对分类的精确度影响很大。  相似文献   

5.
利用CHI值特征选取和前向神经网络的覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类.该方法利用CHI值进行特征选取即特征降维,应用覆盖算法进行文本分类.该方法将CHI值特征选取和覆盖算法充分结合,在提高了分类速度的同时还保证了分类的准确度.应用该方法对标准数据集中的文本进行实验,并在不同的维数上与SVM算法、朴素贝叶斯方法的实验结果进行了比较.结果表明,与SVM算法和朴素贝叶斯方法相比较,覆盖算法在准确度上更好.并且,维数的选择对分类的精确度影响很大.  相似文献   

6.
文本分类中的特征选取   总被引:21,自引:0,他引:21  
刘丽珍  宋瀚涛 《计算机工程》2004,30(4):14-15,175
研究了文本分类学习中的特征选取,主要集中在大幅度降维的评估函数,因为高维的特征集对分类学习未必全是重要的和有用的。还介绍了分类的一些方法及其特点。  相似文献   

7.
基于粗糙集的文本分类方法研究   总被引:8,自引:3,他引:8  
本文旨在利用粗糙集优越的约简理论对文本进行分类。主要完成了以下几个方面的任务:对文本进行了预处理;改进了Okapi 权重计算公式,并对权值进行了离散化;实现了属性约简和规则抽取,首先利用区分矩阵对特征向量维数进行了初次压缩,然后通过相对约简计算再次压缩了特征向量维数,并生成了决策规则;采取了规则合成的策略,生成最终的决策规则;设计了一种文本与规则的匹配算法,使匹配过程尽可能简单有序。试验结果表明该方法是行之有效的。  相似文献   

8.
随着Web信息容量迅速膨胀,对Web文本分类已经是目前研究的热点.传统的Web文本分类对网页的预处理基本上没有考虑网页中的大量噪音,因此对分类结果有一定的影响;另一方面,文本的向量空间模型维数过高,对分类效果也存在很大的影响.提出一种基于粗糙集理论的Web文本分类方法,首先对网页进行去噪,然后对向量空间模型进行属性约简,之后构造分类器,实验表明,此方法不仅降低了维数,还提高了分类结果.  相似文献   

9.
文本分类是根据未知文本的内容将其划分到一个或多个预先定义的类别的过程,是许多基于内容的信息管理任务的重要组成部分.文本分类问题的难点是特征空间的高维性,通常采用特征选择作为降维的重要方法.将属性约简和文本分类的特点相结合,提出了一种基于粗糙集的特征选择算法即改进的快速约简算法.实验表明该算法是有效的,不仅可以降低特征空间的维度,而且能够维持高精度.  相似文献   

10.
特征选取技术主要目的之一是选取代表问题域的最优特征子集,提高分类的有效性和可伸缩性。文章在粗糙集理论框架下,提出了一种能处理不相容数据的特征选取算法,它以属性重要性和平均规则支持度作为特征选取的启发式信息,并且通过实验验证该算法的有效性。最后,将该算法应用到客户满意度特征选取中,对于识别和保留客户具有重要现实意义。  相似文献   

11.
为了提高情感文本分类的准确率,对英文情感文本不同的预处理方式进行了研究,同时提出了一种改进的卡方统计量(CHI)特征提取算法.卡方统计量是一种有效的特征选择方法,但分析发现存在负相关现象和倾向于选择低频特征词的问题.为了克服不足之处,在考虑到词频、集中度和分散度等因素的基础上,考虑文本的长短不均衡和特征词分布,对词频进行归一化,提出了一种改进的卡方统计量特征提取算法.利用经典朴素贝叶斯和支持向量机分类算法在均衡语料、非均衡语料和混合长短文本语料上实验,实验结果表明:新的方法提高了情感文本分类的准确率.  相似文献   

12.
李睿  王彤  李明 《微计算机信息》2006,22(24):49-51
视频流的数据量大,又是一种非结构性的数据,因此视频分类一直是视频分析工作中的一个难点。提出了首先进行视频分割,形成了一个视频属性数据库;然后使用粗糙集的属性约简方法对视频属性数据库进行数据挖掘,提取出分类规则集,实现对视频数据库的分类。  相似文献   

13.
针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了一种基于Canopy和粗糙集的CRS-KNN(Canopy Rough Set-KNN)文本分类算法。算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似作差所得的边界区域数据需要通过KNN算法确定其最终的类别。实验结果表明,该算法降低了KNN算法的数据计算规模,提高了分类效率。同时与传统的KNN算法和基于聚类改进的KNN文本分类算法相比,准确率、召回率和[F1]值都得到了一定的提高。  相似文献   

14.
自动文本分类的效果在很大程度上依赖于属性特征的选择。针对传统基于频率阈值过滤的特征选择方法会导致有效信息丢失,影响分类精度的不足,提出了一种基于粗糙集的文本自动分类算法。该方法对加权后的特征属性进行离散化,建立一个决策表;根据基于依赖度的属性重要度对决策表中条件属性进行适当的筛选;采用基于条件信息熵的启发式算法实现文本属性特征的约简。实验结果表明,该方法能约简大量冗余的特征属性,在不降低分类精度的同时,提高文本分类的运行效率。  相似文献   

15.
基于粗糙集和决策树的增量式规则约简算法   总被引:2,自引:0,他引:2  
粗糙集方法是一种处理不确定或模糊知识的重要工具。传统的粗糙集模型对最简规则集的研究都是针对静态数据的,对于动态数据却显得无能为力。但在实际应用中,数据库中的数据往往是动态变化的,因此,对规则约简的增量式算法的研究是知识发现领域所急需解决的问题之一。文章给出了一种基于粗糙集和决策树的增量式规则约简算法,并与传统算法和RRIA算法进行了对比分析,实验结果表明该算法的方法和效果更好。  相似文献   

16.
马腾  陈庶樵  张校辉  田乐 《计算机应用》2013,33(9):2450-2454
为克服决策树算法处理高速网络、大容量规则集下的报文分类问题时内存使用量大的弊端,提出一种基于规则集划分的多决策树报文分类算法。在保证规则子集数量可控的前提下,采用启发式算法将规则集划分为有限个规则子集,最大限度分离交叠规则;提出两级级联决策树结构,降低决策树深度以减少规则查找时间。理论分析表明,该算法空间复杂度较传统单决策树算法大幅降低。仿真结果表明,该算法的内存使用量比目前空间性能最好的EffiCuts算法减少了30%,且维度可扩展性更好。  相似文献   

17.
文本分类中改进型CHI特征选择方法的研究   总被引:3,自引:0,他引:3       下载免费PDF全文
分析了影响传统CHI统计方法分类精度的因素,去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整,使其分类效果有了明显提高;将分散度、集中度、频度等因素引入到改进后的方法中,提高了其在类分布不均匀语料集上的分类精确度。最后通过实验证明了该方法的有效性和可行性。  相似文献   

18.
一种改进的基于神经网络的文本分类算法   总被引:1,自引:0,他引:1  
提出并实现了一种结合前馈型神经网络和K最近邻的文本分类算法。其中,在选取特征项时考虑到Web文本不同标签组所代表的意义和权重有所区别,采用了一种改进的TFIDF特征选择法。最后对设计的分类器进行了开放性测试,实验结果表明该分类器显著地提高了文本分类的查全率和查准率。  相似文献   

19.
针对置信规则中规则数的"组合爆炸"问题,目前的解决方法主要是基于特征提取的规则约简方法,有效性依赖于专家知识.鉴于此,提出基于粗糙集理论的无需依赖规则库以外知识的客观方法,按照等价类划分思想逐条分析置信规则,进而消除冗余的候选值.最后,以装甲装备能力评估作为实例进行分析,分别从规则约简数、决策准确性方面与具有代表性的主观方法进行对比,结果表明,所提出方法是有效可行的,且优于现有规则约简主观方法.  相似文献   

20.
提出了一种基于粗糙集和神经网络组合进行规则提取的方法。首先对初始数据集进行离散化,并利用粗糙集对决策表中的条件属性进行初步约简,然后利用神经网络对数据进行学习和预测,并通过删除网络不能分类的数据来对决策表中的噪声进行过滤,最后再由粗糙集值约简算法进行规则提取。实验表明,该方法相对于传统规则提取算法快速有效,在保留神经网络高鲁棒性的同时,避免了从神经网络中提取规则的困难。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号