共查询到19条相似文献,搜索用时 62 毫秒
1.
基于概念层次的英文文本自动分类研究 总被引:2,自引:0,他引:2
该文意在设计并且实现一个针对英文文本的自动归类以及检索系统,重点在于提高分类方法的准确率。自动文本分类系统中,一般来说文本内容是以N维特征空间的形式存储的,所以特征提取的方法和准确率极大地影响到分类结果的正确率。传统方法是基于词形的,并不考察词语的意义,忽略了同一意义下词形的多样性、不确定性以及词义之间的关系,尤其是上下位关系。该文提出的方法,在向量空间模型(VSM)的基础上,以“概念”为基础,同时考虑词义的上位关系,使得训练过程中可以从词语中提炼出更加概括性的信息,从而达到提高分类精度的目的。 相似文献
2.
该文提出了一种基于知识树的文本分类方法,运用企业中的知识树相关知识,推导出一种根据结点概念等相关的知识进行文本分类的一种方法。 相似文献
3.
本文针对词粒度注意力的缺点,通过借鉴HAN层次化注意力机制的思想,提出将层次化注意力机制运用于编码器层中,进而得到句子粒度的隐藏层状态信息;在此基础上,解码器层基于句子粒度的隐藏层状态信息进行注意力操作;采用辅助向量的方法避免了序列生成过程存在的重复标签生成问题。最后通过引入开源数据集进行了有效性验证。 相似文献
4.
基于模糊综合评判的文本自动分类算法 总被引:2,自引:0,他引:2
文本分类在文献检索、信息过滤、数据组织、信息管理等领域中应用十分广泛。本文给出了一种基于模糊综合评判的文本自动分类算法,该算法以文本分词技术作为基础,以类间词频方差作为评判因素的选择依据,通过预定义类中关键词的词频均值高低构造评判矩阵,以最大隶属度作为评判原则。文中详细描述了算法的理论依据、评判因数的选择、评判矩阵的构造及分类算法。实验结果表明本文提出的分类算法具有相当的应用价值。 相似文献
5.
文本分类存在维数灾难、数据集噪声及特征词对分类贡献不同等问题,影响文本分类精度。为提高文本分类精度,在数据处理方面提出一种新方法。该方法首先对数据集进行去噪处理,结合特征提取算法和语义分析方法对数据实现降维,再利用词语语义相关度对文本特征向量中每个特征词赋予不同权重;并利用经过上述处理的文本数据学习分类器。实验结果表明,该文本处理方法能够有效提高文本分类精度。 相似文献
6.
一种模仿人类的自动文本分类算法 总被引:6,自引:0,他引:6
1.引言 Internet上有着大量的且快速增长的文本,文本是信息和知识的宝贵资源。随着Internet的快速发展,不久的将来,人们所需要的大部分信息都可以在网上找到。Internet正在成为人类的信息宝库,但是随着网上信息的爆炸性增长,人们想从这个信息宝库中获得自己所需要的信息已经变得日益困难,因此,如何快速有效地获得有用的信息已成为人们十分关 相似文献
7.
传统文本分类算法,在特征选择这一阶段,采用统计观点和方法机械处理词语与类别的联系,假定词语之间相互独立,忽略特征关键词之间的语义关系。本文提出一种新的特征选择方法,用基于上下文统计的词汇相关度方法,计算特征词之间的词汇相关度,设定相关度阀值,进行特征选择。降低了特征空间的高维稀疏性,并有效的减少噪声,提高了分类精度和算法效率。 相似文献
8.
针对现有的基于模式的序列分类算法对于生物序列存在分类精度不理想、模型训练时间长的问题,提出密度感知模式,并设计了基于密度感知模式的生物序列分类算法——BSC。首先,在生物序列中挖掘具有"密度感知"的频繁序列模式;然后,对挖掘出的频繁序列模式进行筛选、排序制定成分类规则;最后,通过分类规则对没有分类的序列进行分类预测。在4组真实生物序列中进行实验,分析了BSC算法参数对结果的影响并提供了推荐参数设置;同时分类结果表明,相比其他四种基于模式的分类算法,BSC算法在实验数据集上的准确率至少提高了2.03个百分点。结果表明,BSC算法有较高的生物序列分类精度和执行效率。 相似文献
9.
本文提出了一种新的文本分类方法。这种方法将一篇文本的一个句子看作一个事务,一个段落看作是一个序列,则一篇文本表示成一个序列的集合。我们从每篇训练文本中挖出最大频繁序列用以表示这篇文本,这种表示方法可大大提高训练及分类速度,同时也可以几乎不损失分类精度。在数据集Reuters-21578上的大量实验证明这种方法要远远好于其他的文本级的基于关联的分类方法。 相似文献
10.
随着网络信息的迅猛发展 ,特别是Internet上在线信息的增加 ,文本自动分类系统成为重要的研究方向。本文首先描述了基于统计 (主要是向量空间模型 )的分类方法的优点和不足 ,然后重点综述了基于概念的文本自动分类的几种方法和实现技术 ,最后 ,文章给出了今后的研究方向。 相似文献
11.
一种新的基于统计的自动文本分类方法 总被引:29,自引:5,他引:29
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中,互联网和文本库提供了大量经过粗分类的训练文本,但普遍存在样本质量较差的问题,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。 相似文献
12.
随着网络中三维数据的涌现,三元概念分析的优势也逐渐体现出来。三元概念分析是较新的研究领域,具有广阔的发展前景。提出基于三元概念分析的文本分类方法,该方法是一种全新的构思理念,是三元概念分析在应用上的拓展。该算法的主要思路是:首先将数据集预处理为三元背景,同时将背景中的二值关系扩展为0-1间的模糊关系,其用于表示特定条件下属性对于对象的隶属度,并基于此构建三元概念,利用三元概念表示数据集中文本、特征词与类别之间的三元关系;然后结合模糊理论中的贴近度,类比得出三元概念间的相似度,并运用相似性度量计算出训练集中三元概念与新文本的相似值。实验结果表明,文中所提模型是有效的,且在特定的数据集上相较于机器学习Support Vector Machine(SVM)算法、K-Nearest Neighbor(KNN)算法、卷积神经网络(CNN)算法以及基于形式概念分析的分类模型均有更好的分类效果。 相似文献
13.
约束概念格是概念格的特化结构,构造时具有较低的时空复杂度,能从中快速提取比较丰富的信息和知识.为了提取分类规则,在充分分析约束概念格结点外延与数据集等价划分之间关系的前提下,引入了分类支持度和记录支持度的概念,提出了一种面向约束概念格的分类规则提取算法(Classification Rule Acquisition Algorithm based on Constrained Concept Lattice,CRACCL),并采用UCI数据集作为实验集,验证了本算法能够提取更加实用和准确的分类规则. 相似文献
14.
15.
16.
17.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。 相似文献
18.
提出了一种基于文本和类别信息的改进KNN文本分类算法。传统的KNN算法在计算样本相似度时利用的是文本和特征的相关信息,因此存在计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性。新算法利用文本和类别的相关信息计算样本间的相似度,能够对特征维数进行有效的压缩。实验表明,该算法有较高的文本分类效率。 相似文献
19.
中文文本分类在数据库及搜索引擎中得到广泛的应用,K-近邻(KNN)算法是常用于中文文本分类中的分类方法,但K-近邻在分类过程中需要存储所有的训练样本,并且直到待测样本需要分类时才建立分类,而且还存在类倾斜现象以及存储和计算的开销大等缺陷。单类SVM对只有一类的分类问题具有很好的效果,但不适用于多类分类问题,因此针对KNN存在的缺陷及单类SVM的特点提出OneClassSVM—KNN算法,并给出了算法的定义及详细分析。通过实验证明此方法很好地克服了KNN算法的缺陷,并且查全率、查准率明显优于K-近邻算法。 相似文献