共查询到20条相似文献,搜索用时 93 毫秒
1.
2.
文本分类和文本聚类在信息过滤系统对用户兴趣进行学习的过程中,都具有很普遍的应用。文中对两者的工作原理进行了对比和分析,从根本上指出了文本分类作为有监督学习方法所存在的固有缺陷,提出了一种在文本聚类后根据词条与聚类的分布特征调整词条权重的方法,并设计和实现了一个基于文本聚类和权重调整的用户兴趣模型构造算法。 相似文献
3.
4.
大规模文体分类是一个非常复杂的任务。提出了一种基于语言自然节奏的文本分类方法,通过对语言中标点标记的自然节奏进行分析,获取其特征,应用贝叶斯分类器,可以快速高效地完成文本分类任务。这种文本分类方法与当前主流基于词条特征的文本分类方法不同,不需要理解和分析语义,即无需分析文章中的词条,特征空间小,数据稀疏性现象不明显,文本分类效果显著。 相似文献
5.
孙娆 《自动化技术与应用》2023,(7):74-77
针对数字化医疗档案数目急剧增多,不同类型的档案信息分类变成棘手问题,为此提出基于离散核支持向量机的数字化档案信息自动分类方法。通过向量空间模型将档案文档扩展为向量空间点,将信息特征矢量与词条矢量间的夹角作为数据库与医院数字化信息的关联性,降均频与规范化处理特征词条权值评估函数,保留权值高的词条,完成数字化档案信息采集;借助梯度下降原则获得连续学习规律,运用近似法明确数据间的距离值,得到清洗后的数据大小。实验结果表明,该方法拥有极佳的分类精度,有效缩短分类所耗时长,为综合性医院数字化档案收集与管理提供借鉴。 相似文献
6.
文本分类和文本聚类在信息过滤系统对用户兴趣进行学习的过程中,都具有很普遍的应用。文中对两者的工作原理进行了对比和分析,从根本上指出了文本分类作为有监督学习方法所存在的固有缺陷,提出了一种在文本聚类后根据词条与聚类的分布特征调整词条权重的方法,并设计和实现了一个基于文本聚类和权重调整的用户兴趣模型构造算法。 相似文献
7.
8.
传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。 相似文献
9.
将深度神经网络模型应用于藏文文本情感分类中,虽然取得不错的分类效果,但仍然存在因藏文评论文本长度较短引起的特征稀疏的问题,使得深度学习模型不能够提取到更为全面的藏文文本语义特征。该文提出一种以藏文音节和藏文词条同时作为文本基本表示对象,采用CNN、BiLSTM和Multi-Headed Self-Attention机制等深度学习模型完成对藏文评论文本情感分类的研究方法。实验首先对音节和词条进行向量化表示,然后分别采用多核卷积神经网络、BiLSTM和Multi-Headed Self-Attention机制获取藏文文本中多维度的内部特征,最后通过特征拼接,再经激活函数为Softmax的全连接神经网络完成文本情感分类。研究结果表明,在该文的实验测试语料集上,融合音节和词条特征模型的分类准确率要优于基于音节的模型和基于词条的模型。 相似文献
10.
一个面向文本分类的中文特征词自动抽取方法 总被引:1,自引:0,他引:1
文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求。 相似文献
11.
12.
模糊kNN在文本分类中的应用研究 总被引:1,自引:0,他引:1
自动文本分类是根据已经分配好类标签的训练文档集,来对新文档分配类标签.针对模糊kNN算法用于文本分类的性能进行了一系列的实验研究与分析.在中英文两个不同的语料集上,采用四种著名的文本特征选择方法进行特征选择,对改进的模糊kNN方法与经典kNN及目前广泛使用的基于相似度加权的kNN方法进行实验比较.结果表明,在不同的特征选择方法下,该算法均能削弱训练样本分布的不均匀性对分类性能的影响,提高分类精度,并且在一定程度上降低对k值的敏感性. 相似文献
13.
Concept Hierarchy-Based Text Database Categorization 总被引:3,自引:1,他引:3
Document categorization as a technique to improve the retrieval of useful documents has been extensively investigated. One
important issue in a large-scale metasearch engine is to select text databases that are likely to contain useful documents
for a given query. We believe that database categorization can be a potentially effective technique for good database selection,
especially in the Internet environment where short queries are usually submitted. In this paper, we propose and evaluate several
database categorization algorithms. This study indicates that while some document categorization algorithms could be adopted
for database categorization, algorithms that take into consideration the special characteristics of databases may be more
effective. Preliminary experimental results are provided to compare the proposed database categorization algorithms. A prototype
database categorization system based on one of the proposed algorithms has been developed.
Received 9 November 2000 / Revised 15 February 2001 / Accepted in revised form 29 May 2001 相似文献
14.
基于主动学习的文档分类 总被引:3,自引:0,他引:3
In the field of text categorization,the number of unlabeled documents is generally much gretaer than that of labeled documents. Text categorization is the problem of categorization in high-dimension vector space, and more training samples will generally improve the accuracy of text classifier. How to add the unlabeled documents of training set so as to expand training set is a valuable problem. The theory of active learning is introducted and applied to the field of text categorization in this paper ,exploring the method of using unlabeled documents to improve the accuracy oftext classifier. It is expected that such technology will improve text classifier's accuracy through adopting relativelylarge number of unlabelled documents samples. We brought forward an active learning based algorithm for text categorization,and the experiments on Reuters news corpus showed that when enough training samples available,it′s effective for the algorithm to promote text classifier's accuracy through adopting unlabelled document samples. 相似文献
15.
16.
17.
18.
19.
熊亮 《计算机工程与应用》2005,41(30):6-9,88
该文分类是信息处理的重要研究方向,现在应用较多的都是基于统计的分类系统,本文介绍了一种新型的文本分类理念,通过概念符号化,使用数字化的概念而非词汇来组成特征项,能最大限度地保留文本信息,且不需要训练语料,能灵活适应不同的分类体系。接下来详细描述了领域特征信息提取的4个步骤,以及分类体系的选取与设计。最后给出了实验的测试数据,并对影响性能的一些关键因素进行了分析,指出了进一步提高分类性能的途径。 相似文献
20.
中文文本分类中特征选择方法的比较 总被引:1,自引:0,他引:1
在自动文本分类系统中,特征选择是有效的降维数方法.通过实验对中文文本分类中的特征选择方法逐一进行测试研究,力图确定较优的中文文本分类特征选择方法.根据实验得出:在所测试的所有特征选择方法中,统计方法的分类性能最好,其次为信息增益(IG),交叉熵(CE)和文本证据权(WE)也取得了较好的效果,互信息(MI)较差. 相似文献