首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
文本分类是文本数据挖掘的基础和核心,为解决在文本分类中二值支持向量机不能进行多类分类的问题,论文提出采用二叉树对多个二值支持向量机(SVM)子分类器进行组合,并运用聚类分析中类距离方法规范二叉树生成过程的基于二叉树的多类支持向量机(MSVM)分类算法。实验数据表明,相对于KNN 算法和朴素贝叶斯算法,基于二叉树的MSVM 算法在文本分类上更具优越性。该算法已应用于科技奖励信息检索系统中,取得了良好的效果。  相似文献   

2.
利用K-最近距离算法对哈萨克语文本进行分类,通过统计词频信息和语言信息相结合的方法选择特征,实现一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频,还利用特征的集中度、分散度,经过训练和统计对每一类哈萨克语文本形成特征的权重向量,根据K-最近距离算法判断测试文本的所属类别,实验结果表明该方法可行。  相似文献   

3.
提出一种改进的数据挖掘算法。首先采用ICTCLAS系统进行文本预处理,以词频特征构建词条向量;然后融合词频特征和词频-逆向文件频率特征,构建训练样本集的特征矩阵;接着对该矩阵进行奇异值分解变换,得到语义空间,用于对文本特征向量进行语义空间变换,得到语义向量;最后构建联合支持向量机分类器,实现中文书目所对应的语义向量的自动分类。最后做了大量的仿真实验,实验结果表明,本文方法的分类准确率高于现有方法。  相似文献   

4.
王国勇  徐建锁 《计算机应用》2004,24(2):53-55,68
文中根据隐含语义分析理论(LSA)和Kohonen网络理论提出一种文本分类新方法。应用Kohonen网络进行文本分类存在训练速度慢的缺点,因此在网络训练阶段引入了有监督机制,提高了网络的分类速度和精度;但是对于高维的文本特征向量来说,分类速度很低,甚至应用Kohonen网络进行分类,不能取得理想结果;新方法应用LSA理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而大大提高了文本分类的精度和速度,同时根据因子分析理论给出了维数K的选取方法。  相似文献   

5.
一种基于改进的支持向量机的多类文本分类方法   总被引:19,自引:0,他引:19       下载免费PDF全文
提出了一种基于二叉树、预抽取支持向量机及循环迭代算法的改进的支持向量机(SVM)的多类文本分类方法, 与现有的多类分类SVM算法相比,该方法具有较高的计算效率。给出了具体实现过程并将其用于文本分类中,实验表明该算法用于文本分类的有效性及其高效率。  相似文献   

6.
针对现有的空间向量模型在进行文本表示时忽略词条的位置和词条间关系的问题,提出了一种基于相对密度的多耦合文本聚类算法。该算法在基于相对密度的聚类方法基础上,根据相对密度越小本文相似性越小这一事实,将相对密度转化为文本相似度,融入了传统DBSCAN密度算法,并对核心对象的选取进行了优化,。实验结果表明,与改进的K-means文本聚类和改进的DBSCAN文本聚类算法相比,本算法在文本聚类中更高效、聚类质量更优。  相似文献   

7.
多类支持向量机文本分类方法   总被引:5,自引:3,他引:5  
文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一.传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题.介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较.提出了多类支持向量机文本分类中存在的问题和今后的发展.  相似文献   

8.
文本挖掘之前首先要对文本集进行有效的特征选择,传统的特征选择算法在维数约减及文本表征方面效果有限,并且因需要用到文本的类别信息而不适用于无监督的文本聚类任务。针对这种情况,设计一种适用于文本聚类任务的特征选择算法,提出词条属性的概念,首先基于词频、文档频、词位置及词间关联性构建词条特征模型,重点研究了词位置属性及词间关联性属性的权值计算方法,改进了Apriori算法用于词间关联性属性权值计算,然后通过改进的k-means聚类算法对词条特征模型进行多次聚类完成文本特征选择。实验结果表明,与传统特征选择算法相比,该算法获得较好维数约减率的同时提高了所选特征词的文本表征能力,能有效适用于文本聚类任务。  相似文献   

9.
针对基于支持向量机的Web文本分类效率低的问题,提出了一种基于支持向量机Web文本的快速增量分类FVI-SVM算法。算法保留增量训练集中违反KKT条件的Web文本特征向量,克服了Web文本训练集规模巨大,造成支持向量机训练效率低的缺点。算法通过计算支持向量的共享最近邻相似度,去除冗余支持向量,克服了在增量学习过程中不断加入相似文本特征向量而导致增量学习的训练时间消耗加大、分类效率下降的问题。实验结果表明,该方法在保证分类精度的前提下,有效提高了支持向量机的训练效率和分类效率。  相似文献   

10.
针时标准支持向量机多分类算法不能解决多主题文本分类问题,提出了一种基于超球支持向量机的多主题文本分类算法.该算法用超球支持向量机训练得到每个超球,计算待分类文本到每个超球球心的距离,依据距离得到隶属度向量,最后根据隶属度向量判定该文本所属的主题.实验结果表明,该算法具有更好的召回率,准确率和F1值.  相似文献   

11.
一种Web主题文本通用提取方法   总被引:2,自引:0,他引:2  
为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。  相似文献   

12.
文本是计算机视觉的许多应用中的一项重要特征。大量复杂图像文本的应用,使图像文本分析技术成为研究的新方向。图像文本分析技术和通常的文档图像分析技术之间有着紧密的联系;但是图像文本其自身所具有的特性,又使得图像文本分析技术具有不同于一般的文档图像分析的更加丰富的内容。我们将图像文本分析技术划分为三大组成部分:图像文本定位、图像文本的预处理和图像文本的识别进行讨论。最后,本文也对图像文本分析技术的应用进行了讨论。  相似文献   

13.
There are two important strategies incomputer-assisted reading and analysis of text(CARAT). The first relates to theclassification process, and the second pertainsto the categorisation process. These twooften-interrelated operations have beenregularly recognised as essential components oftext analysis. However, the two operations arehighly time-consuming. A possible solution tothis problem calls upon more inductive orbottom-up strategies that are numerical andstatistical in nature. In our own research, wehave been exploring a few of these techniquesand their combination. We now know, through ourown past research and others' work, that theclassification methods allow a good empiricalthematic exploration of a corpus. Morespecifically, in this paper we shallconcentrate on the problem of assisting theautomatic categorisation of small segments of aphilosophical text into a set of thematiccategories.  相似文献   

14.
智能文本搜索新技术   总被引:1,自引:0,他引:1  
面对当今互联网上海量的信息,以及搜索信息准确、高效、个性化等需求,提出了一套包括信息检索、信息抽取和信息过滤在内的智能文本搜索新技术.首先举荐了与信息检索新技术相关的企业检索、实体检索、博客检索、相关反馈子任务.然后介绍了与信息抽取技术相关的实体关联和实体填充子任务,以及与信息过滤技术相关的垃圾邮件过滤子任务.这些关键技术融合在一起,在多个著名的国际评测中得到应用,如美国主办的文本检索会议评测和文本分析会议评测,并且在互联网舆情、短信舆情和校园网对象搜索引擎等实际系统中得到了检验.  相似文献   

15.
文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性. 为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文档相似度的方法,该算法综合考虑了各元素、样本在文档中的权重及其对多个文档相似度的贡献程度. 实验结果表明,基于改进的Jaccard系数的文档相似度算法具有实效性并且能够得到较高的准确率,适用于各种长度的中英文文档,有效地解决现有技术中存在的文档间相似度计算不精的问题.  相似文献   

16.
艺术创作是在一定的社会环境中,在特定的意识形态支配下,艺术家用其独特的表现手法对社会的写照,情感的宣泄.意志的传递.本文通过对艺术创作中三种写作模式,既情态文本模式,意态文本模式、语态文本模式的探讨。提供了对艺术品的鉴赏与创作表现上多角度认识。  相似文献   

17.
文章详细研究了Web文本挖掘的定义及类型,重点分析了Web文本挖掘算法,总结了文本挖掘的应用,提出了今后工作的重点。  相似文献   

18.
文章详细研究了Web文本挖掘的定义及类型,重点分析了Web文本挖掘算法,总结了文本挖掘的应用,提出了今后工作的重点。  相似文献   

19.
基于Web的文本挖掘技术研究   总被引:2,自引:0,他引:2  
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

20.
图像中的文本定位技术研究综述   总被引:1,自引:0,他引:1  
介绍了图像中文本定位技术的研究现状,依据定位所利用的特征进行分类,分析了其中几种典型算法,并对文本定位算法的性能评价标准进行了深入讨论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号