首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
曾超  吕钊  顾君忠 《计算机应用》2008,28(12):3248-3250
提出了一个基于概念向量空间模型的电子邮件分类方法。在提取电子邮件特征向量时,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,从而建立电子邮件的概念向量空间模型作为电子邮件的特征向量。使用TF*IWF*IWF方法对概念向量进行权值修正,最后通过简单向量距离分类方法来确定电子邮件的类别。实验结果表明,当训练集合数目有限时,该方法能够有效提高电子邮件的分类准确率。  相似文献   

2.
基于WordNet概念向量空间模型的文本分类   总被引:5,自引:0,他引:5  
文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。  相似文献   

3.
改进的支持向量机分类算法   总被引:1,自引:0,他引:1  
在研究了标准SVM分类算法后,本文提出了一种快速的支持向量机分类方法.该方法通过解决两类相关的SVM问题,找到两个非平行的平面,其中每个平面靠近其相应的类样本点,远离另一类样本点,最后通过这两个平面找到一个将两类样本分开的最优平面.在处理非线性情况下,引入一种快速核函数分类方法.使用该算法可以使分类的速度得到很大提高,针对实际数据集的实验表明了该算法的有效性.  相似文献   

4.
分类预测是数据挖掘、机器学习和模式识别等很多领域共同关注的问题,已经存在了许多有效的分类算法,但这些算法还不能解决所有的问题。支持向量机作为一种新的分类预测工具,能根据有限样本信息在模型的复杂性和学习能力间取得平衡,并能获得更好的泛化能力。SMO算法是支持向量机中使用最多的算法,它体现了支持向量机的优点,同时也能处理大规模训练集。  相似文献   

5.
为了解决基于传统关键词的文本聚类算法没有考虑特征关键词之间的相关性,而导致文本向量概念表达不够准确,提出基于概念向量的文本聚类算法TCBCV(Text Clustering Based on Concept Vector),采用HowNet的概念属性,并利用语义场密度和义原在概念树的权值选取合适的义原作为关键词的概念,实现关键词到概念的映射,不仅增加了文本之间的语义关系,而且降低了向量维度,将其应用于文本聚类,能够提高文本聚类效果。实验结果表明,该算法在文本聚类的准确率和召回率上都得到了较大的提高。  相似文献   

6.
孙德山  赵君  高釆葵  郑平  刘小菲 《计算机科学》2014,41(4):230-232,243
根据一类分类思想,提出一种基于线性规划的支持向量回归算法,该算法揭示了一类分类和回归之间的关系。实验在一个正弦函数、一个混沌时间序列和一个实际的数据上进行。实验结果表明,所给算法的泛化性能优于标准的支持向量回归算法(ε-SVR)、线性规划支持向量回归算法(LP-SVR)和最小二乘支持向量回归算法(LS-SVR),实验结果也说明了所给算法的有效性和可行性。  相似文献   

7.
开放网络环境下存在大量的信息文档,如何判断文档内容的可信性、安全性一直是一个值得深入研究的问题。论文研究了可信文本分类的方法,收集了体现文本可信性的点滴素材,建立了文本的信任特征向量,并结合已有的特征选择方法,实现了一个基于向量空间模型的文本可信性分类算法,实验表明该方法具有较好的分类效果。  相似文献   

8.
为了克服数据流概念漂移现象对分类模型的影响,提高数据流分类准确率,提出了一种基于概念漂移检测算法的数据流分类模型.针对不同概念漂移类型使用不同的方法进行检测,该模型通过对概念漂移进行监控,从而有效控制分类模型的更新频率,做到有的放矢地更新分类器模型,提高分类模型的分类性能.通过使用两种不同的数据集进行实验,并与传统分类模型进行比较,验证了该模型的有效性和正确性.  相似文献   

9.
基于归一化向量的文本分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
基于归一化思想和矩阵投影运算提出一种文本分类算法。该算法综合考虑单个类别内的文档频率和词频,用于进行矩阵投影运算。将训练样例中表示文本特征的三维空间投影到二维空间上,得到归一化的特征向量,可有效地达到降低特征空间维数、提高分类效率和精度的目的。与kNN算法的对比实验表明,该算法在时间性能和精度上都有较大提高。  相似文献   

10.
概念推理网及其在文本分类中的应用   总被引:38,自引:1,他引:37  
在分析了当前文本分类中学常用方法的基础上,提出了一种新的分类模型,该模型是对人的分类过程的一种模拟,在已的有英语语义词典及大量训练集的基础上,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网,对待分类的文档可以激活相应的网络,网时传播推理以决定其类别的归属,试验表明:该方法具有较高的分类正确率与召回率。  相似文献   

11.
中心分类法性能高效,但需要大量的训练文档(已标识文档)来训练分类器以保证分类的正确性.而训练文档因需花费大量人力物力来分类而数量有限,同时,网络上存在着很多未标识文档.为此,对中心分类法进行改进,提出了ONUC和0FFUC算法,以弥补当训练文档不足时,中心分类法性能急剧下降的缺陷.考虑到中心分类法易受孤立点的影响,采取了去边处理.实验证明,与普通的中心分类法、其它半监督经典算法比较,在训练文档很少的情况下,该算法能获得较好的性能.  相似文献   

12.
铁路文本分类对于我国铁路事业的发展具有重要的实用意义.现有的中文文本特征提取方法依赖于事先对文本的分词处理,然而面向铁路文本数据进行分词的准确率不高,导致铁路文本的特征提取存在语义理解不充分、特征获取不全面等局限性.针对以上问题,提出了一种字符级特征提取方法CLW2V(Character Level-Word2Vec)...  相似文献   

13.
Using Genetic Algorithms for Concept Learning   总被引:23,自引:0,他引:23  
In this article, we explore the use of genetic algorithms (GAs) as a key element in the design and implementation of robust concept learning systems. We describe and evaluate a GA-based system called GABIL that continually learns and refines concept classification rules from its interaction with the environment. The use of GAs is motivated by recent studies showing the effects of various forms of bias built into different concept learning systems, resulting in systems that perform well on certain concept classes (generally, those well matched to the biases) and poorly on others. By incorporating a GA as the underlying adaptive search mechanism, we are able to construct a concept learning system that has a simple, unified architecture with several important features. First, the system is surprisingly robust even with minimal bias. Second, the system can be easily extended to incorporate traditional forms of bias found in other concept learning systems. Finally, the architecture of the system encourages explicit representation of such biases and, as a result, provides for an important additional feature: the ability todynamically adjust system bias. The viability of this approach is illustrated by comparing the performance of GABIL with that of four other more traditional concept learners (AQ14, C4.5, ID5R, and IACL) on a variety of target concepts. We conclude with some observations about the merits of this approach and about possible extensions.  相似文献   

14.
扩展概念格的渐进式构造   总被引:7,自引:4,他引:7  
鉴于已在Galois格的基础上提出了扩展概念格,文章对已经构造好的扩展概念格,在数据对象增加时如何更新的问题,提出了一种渐进式构造算法,经验证它是一个有效的算法。  相似文献   

15.
基于语义相关和概念相关的自动分类方法研究   总被引:4,自引:0,他引:4  
文章区别于传统的基于词的中文文本自动分类方法,在选取文本特征时,考虑了词语的语言学信息以及词语概念之间的相关性,提出基于语义的方法和基于概念属性的方法,建立了分类模型。实验表明,改进后的这两种方法使分类系统具有较高的精度。  相似文献   

16.
以当前的"消极学习型分类法"加"动态更新训练集"的组合模式,不足以解决好动态文本分类中的概念漂移问题.为此,受消极分类法基本思想的启发,并借鉴k-NN算法的优点,提出了针对概念漂移问题的"消极特征选择模式"的概念和基于此模式的动态文本分类算法.测试结果表明,新算法很好地解决了当前存在的难点问题,具有高可靠性、高实用性等优点.  相似文献   

17.
基于概念空间的文本分类研究   总被引:3,自引:0,他引:3  
1.引言随着文本信息的快速增长,特别是Internet上在线信息的增加,文本(网页)自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。文本分类的方法分为两类:一是基于知识的分类方法;二是基于统计的分类方法。基于知识的文本分类系统应用于某一具体领域,需要该领域的知识库作为支撑。由于知识提取、更新、维护以及自我学习等方面存在的种种问题,使得它适用  相似文献   

18.
本文讨论了一种基于正交变换的文本特征降维方法.分析了基于特征选择和特征抽取的特征降维方法各自特点,借助矩阵的分解论证了基于Fisher准则函数的特征降维模式的原理与理论基础,讨论了PCA与SVD两种模式的相互关系.实验结果表明这种特征降维模式在文本分类的准确性方面效果较好.  相似文献   

19.
针对图像分类过程中局部不变特征数量不确定性问题,提出一种局部不变特征的完备性表达方法。在分析多种局部邻域分布的基础上,构造灰度的尺度差值空间。在每个差值空间,将局部空间高斯分布关系加权汇总,得到完备性描述图,进而从完备性描述图上定位兴趣点。实验采用特征袋模型进行分类,结果表明,与传统方法相比,该方法能将分类精度提高5%~10%。  相似文献   

20.
The binary representation of each classification from a subset of a space of admissible classifications is considered. A metric in a unit cube is introduced, and a correct algebra of classification algorithms is constructed. The correctness and completeness of a model of classification algorithms are proved. An example of construction of a complete model for a classification problem is considered.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号