首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
从网络文本自动分类的需求出发,针对基于VSM模型的分类处理中词条无关假设和词条维度过高等问题,对基于类中心向量的分类方法进行了改进。利用LSA分析中的SVD分解获得Web文档的语义特征向量,并在此基础上进行分类处理,在不损害分类精度的同时提高了分类及其后处理速度,并设计实现了一个原型系统。  相似文献   

2.
文本分类和文本聚类在信息过滤系统对用户兴趣进行学习的过程中,都具有很普遍的应用。文中对两者的工作原理进行了对比和分析,从根本上指出了文本分类作为有监督学习方法所存在的固有缺陷,提出了一种在文本聚类后根据词条与聚类的分布特征调整词条权重的方法,并设计和实现了一个基于文本聚类和权重调整的用户兴趣模型构造算法。  相似文献   

3.
文本分类的特征提取方法比较与改进   总被引:12,自引:0,他引:12  
文本的特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。该文介绍了词条的χ2统计方法(CHI)、词条与类别的互信息(MI)、信息增益(IG)、词条的期望交叉熵(CE)等文本特征提取方法,并对其取词策略进行了改进。为了对这些特征提取方法进行系统地比较,选择了三种代表性的分类器对《读卖新闻》文本数据库进行了分类实验。实验结果表明χ2统计方法具有最好的准确率,各种改进的特征提取方法都能提高文本分类的准确率。  相似文献   

4.
大规模文体分类是一个非常复杂的任务。提出了一种基于语言自然节奏的文本分类方法,通过对语言中标点标记的自然节奏进行分析,获取其特征,应用贝叶斯分类器,可以快速高效地完成文本分类任务。这种文本分类方法与当前主流基于词条特征的文本分类方法不同,不需要理解和分析语义,即无需分析文章中的词条,特征空间小,数据稀疏性现象不明显,文本分类效果显著。  相似文献   

5.
针对数字化医疗档案数目急剧增多,不同类型的档案信息分类变成棘手问题,为此提出基于离散核支持向量机的数字化档案信息自动分类方法。通过向量空间模型将档案文档扩展为向量空间点,将信息特征矢量与词条矢量间的夹角作为数据库与医院数字化信息的关联性,降均频与规范化处理特征词条权值评估函数,保留权值高的词条,完成数字化档案信息采集;借助梯度下降原则获得连续学习规律,运用近似法明确数据间的距离值,得到清洗后的数据大小。实验结果表明,该方法拥有极佳的分类精度,有效缩短分类所耗时长,为综合性医院数字化档案收集与管理提供借鉴。  相似文献   

6.
文本分类和文本聚类在信息过滤系统对用户兴趣进行学习的过程中,都具有很普遍的应用。文中对两者的工作原理进行了对比和分析,从根本上指出了文本分类作为有监督学习方法所存在的固有缺陷,提出了一种在文本聚类后根据词条与聚类的分布特征调整词条权重的方法,并设计和实现了一个基于文本聚类和权重调整的用户兴趣模型构造算法。  相似文献   

7.
软件错误报告的自动分类能够节省大量人力和时间,然而用户提交的错误报告主观性较强,对错误报告的描述较随意,造成自动分类的效率低下。为此,基于传统的词频-逆向文件频率( TF-IDF )算法,结合文档内词条频度与词条在同类别及不同类别文档中的分布情况,提出2种特征降维的改进算法,降维后再对词条进行权值处理,进一步提高特征降维的效果。实验结果表明,应用该算法得到的错误报告自动分类在精确率、召回率、F1值和准确度等指标上比现有算法都有明显提高。  相似文献   

8.
传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。  相似文献   

9.
将深度神经网络模型应用于藏文文本情感分类中,虽然取得不错的分类效果,但仍然存在因藏文评论文本长度较短引起的特征稀疏的问题,使得深度学习模型不能够提取到更为全面的藏文文本语义特征。该文提出一种以藏文音节和藏文词条同时作为文本基本表示对象,采用CNN、BiLSTM和Multi-Headed Self-Attention机制等深度学习模型完成对藏文评论文本情感分类的研究方法。实验首先对音节和词条进行向量化表示,然后分别采用多核卷积神经网络、BiLSTM和Multi-Headed Self-Attention机制获取藏文文本中多维度的内部特征,最后通过特征拼接,再经激活函数为Softmax的全连接神经网络完成文本情感分类。研究结果表明,在该文的实验测试语料集上,融合音节和词条特征模型的分类准确率要优于基于音节的模型和基于词条的模型。  相似文献   

10.
一个面向文本分类的中文特征词自动抽取方法   总被引:1,自引:0,他引:1  
文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求。  相似文献   

11.
人工神经网络在文本分类中的应用*   总被引:2,自引:1,他引:1  
给出一种基于多层前馈神经网络的中文文本分类模型,介绍了该模型的设计和实现。对于文本分类的核心训练算法,给出主要步骤的推导过程;最后给出了神经网络模型分类性能的测试结果。  相似文献   

12.
模糊kNN在文本分类中的应用研究   总被引:1,自引:0,他引:1  
自动文本分类是根据已经分配好类标签的训练文档集,来对新文档分配类标签.针对模糊kNN算法用于文本分类的性能进行了一系列的实验研究与分析.在中英文两个不同的语料集上,采用四种著名的文本特征选择方法进行特征选择,对改进的模糊kNN方法与经典kNN及目前广泛使用的基于相似度加权的kNN方法进行实验比较.结果表明,在不同的特征选择方法下,该算法均能削弱训练样本分布的不均匀性对分类性能的影响,提高分类精度,并且在一定程度上降低对k值的敏感性.  相似文献   

13.
Concept Hierarchy-Based Text Database Categorization   总被引:3,自引:1,他引:3  
Document categorization as a technique to improve the retrieval of useful documents has been extensively investigated. One important issue in a large-scale metasearch engine is to select text databases that are likely to contain useful documents for a given query. We believe that database categorization can be a potentially effective technique for good database selection, especially in the Internet environment where short queries are usually submitted. In this paper, we propose and evaluate several database categorization algorithms. This study indicates that while some document categorization algorithms could be adopted for database categorization, algorithms that take into consideration the special characteristics of databases may be more effective. Preliminary experimental results are provided to compare the proposed database categorization algorithms. A prototype database categorization system based on one of the proposed algorithms has been developed. Received 9 November 2000 / Revised 15 February 2001 / Accepted in revised form 29 May 2001  相似文献   

14.
基于主动学习的文档分类   总被引:3,自引:0,他引:3  
In the field of text categorization,the number of unlabeled documents is generally much gretaer than that of labeled documents. Text categorization is the problem of categorization in high-dimension vector space, and more training samples will generally improve the accuracy of text classifier. How to add the unlabeled documents of training set so as to expand training set is a valuable problem. The theory of active learning is introducted and applied to the field of text categorization in this paper ,exploring the method of using unlabeled documents to improve the accuracy oftext classifier. It is expected that such technology will improve text classifier's accuracy through adopting relativelylarge number of unlabelled documents samples. We brought forward an active learning based algorithm for text categorization,and the experiments on Reuters news corpus showed that when enough training samples available,it′s effective for the algorithm to promote text classifier's accuracy through adopting unlabelled document samples.  相似文献   

15.
一种面向专利文献数据的文本自动分类方法   总被引:1,自引:0,他引:1  
中文专利文献自动分类目前尚无成熟适用的方法。分析了文本自动分类的关键技术,并结合专利数据的特点对无词典分词和权重计算进行了改进,提出了一种适用于专利数据分类的层次分类方法,给出了面向专利文献数据的文本自动分类系统的框架模型。实验表明,该系统具有较好的分类精度与效率。  相似文献   

16.
文本分类技术研究*   总被引:22,自引:2,他引:20  
对文本分类技术进行研究,介绍文本分类的基本过程,论述文本特征提取方法,讨论朴素贝叶斯、K-近邻、支持向量机、投票等常用的文本分类原理与方法,探讨中文文本分类技术。  相似文献   

17.
在研究基于支持向量机进行文本分类一般步骤的基础上,针对Key-Substring-Group文本分类算法存在非线性支持向量机对核函数和参数C的强依赖的问题,用欧氏距离代替支持向量机训练得到的分类决策面进行分类决策,对文本分类算法进行改进。通过对比试验,发现分类效果不会随着核函数及参数C的变化而有明显的波动。  相似文献   

18.
一种规则和贝叶斯方法相结合的文本自动分类策略   总被引:5,自引:1,他引:4  
文本自动分类技术是信息处理领域的重要研究方向,在介绍文本分类应用以及其关键技术的同时,讨论了几种文本分类方法,并且在对这些分类方法分析的基础上,提出了一种规则和统计相结合的文本自动分类策略。该策略通过规则方法来放宽贝叶斯方法所要求的强独立性假设条件,同时当规则不能满足时,可以通过贝叶斯方法来得到更好的分类结果。  相似文献   

19.
该文分类是信息处理的重要研究方向,现在应用较多的都是基于统计的分类系统,本文介绍了一种新型的文本分类理念,通过概念符号化,使用数字化的概念而非词汇来组成特征项,能最大限度地保留文本信息,且不需要训练语料,能灵活适应不同的分类体系。接下来详细描述了领域特征信息提取的4个步骤,以及分类体系的选取与设计。最后给出了实验的测试数据,并对影响性能的一些关键因素进行了分析,指出了进一步提高分类性能的途径。  相似文献   

20.
中文文本分类中特征选择方法的比较   总被引:1,自引:0,他引:1  
在自动文本分类系统中,特征选择是有效的降维数方法.通过实验对中文文本分类中的特征选择方法逐一进行测试研究,力图确定较优的中文文本分类特征选择方法.根据实验得出:在所测试的所有特征选择方法中,统计方法的分类性能最好,其次为信息增益(IG),交叉熵(CE)和文本证据权(WE)也取得了较好的效果,互信息(MI)较差.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号