首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
使用KNN算法的文本分类   总被引:30,自引:2,他引:30  
张宁  贾自艳  史忠植 《计算机工程》2005,31(8):171-172,185
介绍了数据挖掘的一个分枝——文本自动分类的相关技术,在对数据进行预处理的基础上,实现了K最近邻居分类算法,并结合实验结果对数据预处理在文本分类中的重要性进行了讨论。  相似文献   

2.
以解决公安部门犯罪信息文本数据自动分类问题为应用目的,通过对已有多层文本自动分类技术的研究,给出多层文本分类器的过程模型,并对模型中的特征提取方法进行深入研究,提出改进后的特征提取权重计算公式。实验证明,该分类器能够有效解决犯罪信息文本的自动分类问题。  相似文献   

3.
支持向量机的中文文本分类研究   总被引:9,自引:0,他引:9  
支持向量机是一种基于统计学习理论的新型机器学习方法,在文本分类领域取得了很好的效果。使用支持向量机进行了文本分类的研究,实现了一个中文文本自动分类系统,并给出了实验结果。  相似文献   

4.
针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊向量空间模型和BP网络的分类方法。在进行文本分类特征提取时,根据特征词在文档中的位置信息和文档结构,构造出模糊分类特征向量,在此基础上,采用BP网络对Web文档进行分类,使分类方法更接近于手工分类。提高了文本分类的精度。文中以中国期刊网专题分类为例验证了方法的有效性。  相似文献   

5.
运用人工智能相关技术实现海量数据文本的自动化分类识别,将有限的人力从海量数据中解放出来,已成为促进工作发展的重要途径.主要运用SVM文本分类技术对数据文本进行自动筛选和智能分类,详细介绍了SVM文本分类方法的系统结构、分词、特征选择、评估方法、模型训练和分类识别的过程,并针对语料库中的大量文本进行分类实验.结果表明,该方法具有较好的分类效果.  相似文献   

6.
一种规则和贝叶斯方法相结合的文本自动分类策略   总被引:5,自引:1,他引:4  
文本自动分类技术是信息处理领域的重要研究方向,在介绍文本分类应用以及其关键技术的同时,讨论了几种文本分类方法,并且在对这些分类方法分析的基础上,提出了一种规则和统计相结合的文本自动分类策略。该策略通过规则方法来放宽贝叶斯方法所要求的强独立性假设条件,同时当规则不能满足时,可以通过贝叶斯方法来得到更好的分类结果。  相似文献   

7.
文本分类研究逐渐成为网络文本挖掘的研究热点,针对中文文本进行自动分类的研究也在逐渐升温.针对新闻文本的特殊性,在文本分类中经典的向量空间模型的基础上,提出了一套改进的四维向量空间模型及自适应追踪策略,进而提高了新闻文本分类的效果.实验结果表明,算法可以使传统空间向量模型的分类性能由81.5%提高至92.49%,证明算法是有效的.  相似文献   

8.
封二英  牛耘  魏欧 《计算机应用》2012,32(Z1):147-150
针对目前蛋白质交互(PPI)关系提取方法仅以单句中的信息为主要依据的问题,提出一种基于大规模文本的蛋白质交互关系自动提取的方法.首先通过对大规模生物医学文本的自动搜索建立目标蛋白质对的签名档,将蛋白质交互关系抽取转化为文本自动分类问题;然后提取签名档中的重要特征,建立蛋白质对的向量空间模型(VSM);最后采用支持向量机(SVM)对签名档进行分类.比较了四种对向量的特征进行加权和特征选择的方案.实验表明,基于大规模文本的蛋白质交互关系识别取得了最高达94.8%的精确度和65.1%的召回率;并且此方法充分利用已有的交互信息,免除了额外的人工标注的负担.  相似文献   

9.
基于向量空模型的文本自动分类系统的研究与实现   总被引:151,自引:11,他引:140  
随着网络信息的迅猛发展,信息处理已经成为人工获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨,并且提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。  相似文献   

10.
研究哈萨克语自动文本分类,并实现哈萨克语文本自动分类系统.系统首先对测试语料进行特征提取,而后生成训练模型.其次,对训练语料进行特征提取生成SVM向量.最后,给出测试文本的分类结果.同时对哈萨克语单词切分和未切分进行分类对比,得出未切分单词可以得出更好的分类效果.  相似文献   

11.
情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要 手段。然而,中文词汇在不同领域中的情感倾向不尽相同,一词多义现象明显。同时,不同领域中的情感词也具有专业性、领 域性的特点。针对这些问题,本文提出一种基于词向量相似度的半监督情感极性判断算法 (Sentiment orientation from word vector,SO-WV),并依据该算法设计出一种跨领域的中文情感词典构建方法。实验证明,本文所设计的情感词典构建方法能有效地对情感词情感倾向进行判断。算法不仅在不同领域的情感词典 建立上具有良好的可移植性,同时还具有专业性、领域性的特点。  相似文献   

12.
This paper explores the problem of constructing a classification scheme of logical-semantic relations between parts of sentences, sentences and fragments of text regardless of its language. The proposed technology for the construction of the classification scheme involves two main steps: the automated formation of a classification heading list and the development of a scheme based on the generated list. The developed method of automated heading formation makes it possible to create verifiable classifications for a wide range of subject areas in which methods of text (and other information objects) processing are applied, for example, in the field of scientific and technical information.  相似文献   

13.
文本分类属于文本挖掘的一项研究内容,存在着广阔的应用前景,近年来得到了广泛的关注和研究。对文本进行建模的普遍方法是使用向量空间模型构建文本向量,并利用权值调整和维度调整对文本向量进行优化。提出了一种面向文本分类的特征向量优化方法。首先提出利用剔除近义词方法优化文本向量中的特征项。然后提出贡献率因子的概念,并利用其优化特征值。实验表明,比朴素贝叶斯分类方法的效果提高了0.96%。因此,通过去除近义词和对提取出的特征词调整权重,可以达到优化特征向量、提高文本分类效果的目的。  相似文献   

14.
针时标准支持向量机多分类算法不能解决多主题文本分类问题,提出了一种基于超球支持向量机的多主题文本分类算法.该算法用超球支持向量机训练得到每个超球,计算待分类文本到每个超球球心的距离,依据距离得到隶属度向量,最后根据隶属度向量判定该文本所属的主题.实验结果表明,该算法具有更好的召回率,准确率和F1值.  相似文献   

15.
杨为民  李龙澍 《微机发展》2007,17(2):135-137
信息检索的一个核心问题是自动文本分类。基于分类体系的文本分类需要全文抽取主题词、计算权重,再根据分类体系对文献进行分类。文中构建一种基于Agent技术的文本自动分类系统,仅需要对文档头进行信息处理就可以进行快速文本分类,有效地减少了文本分类过程中的时间和空间的消耗。  相似文献   

16.
基于非线性流形学习和支持向量机的文本分类算法   总被引:2,自引:1,他引:1  
为解决文本自动分类问题,提出一种流形学习和支持向量机相结合的文本分类算法(LLE-LSSVM)。LLE-LSSVM算法利用非线性流形学习算法LEE对高维文本特征进行非线性降维,挖掘出特征内在规律与本征信息,从而得到低维特征空间,然后将其输入到LSSVM中进行学习,同时利用混沌粒子群算法对LSSVM参数进行优化,建立文本分类模型。仿真实验结果表明,LLE-LSSVM算法提高了文本分类准确率,减少了分类运行时间,是一种有效的文本分类算法。  相似文献   

17.
一种基于反向文本频率互信息的文本挖掘算法研究   总被引:1,自引:0,他引:1  
针对传统的文本分类算法存在着各特征词对分类结果的影响相同,分类准确率较低,同时造成了算法时间复杂度的增加,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项的基础上,提出一种基于反向文本频率互信息熵文本分类算法。该算法首先采用基于向量空间模型(vector spacemodel,VSM)对文本样本向量进行特征提取;然后对文本信息提取关键词集,筛选文本中的关键词,采用互信息来表示并计算词汇与文档分类相关度;最后计算关键词在文档中的权重。实验结果表明了提出的改进算法与传统的分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。  相似文献   

18.
在文本自动分类中,针对如何进行文本特征的选择和提取这一关键和基础性工作,提出用支持向量度量词汇对分类的贡献,然后进行文本特征的提取。实验结果表明,该方法可以在确保分类信息不损失的前提下,降低向量空间的维数,提高分类器效率和分类准确率。  相似文献   

19.
基于向量空间模型的贝叶斯文本分类方法   总被引:2,自引:0,他引:2  
提出基于向量空间模型的贝叶斯文本分类方法。首先提取出文本训练集的特征词,建立特征向量空间模型。然后采用贝叶斯文本分类方法对未知类别文档进行分类。给出了贝叶斯文本分类方法过程的详细描述和文本分类的一个测试实例。  相似文献   

20.
基于加权词向量和卷积神经网络的新闻文本分类   总被引:1,自引:0,他引:1  
在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TF-IDF计算方法,兼顾了新闻标题和正文.实验表明,基于加权词向量和CNN的新闻文本分类方法比逻辑回归分类效果有较大提高,比不加权方法也有一定的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号