首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对标题文本特征少、特征维度高和分布不均匀导致分类性能不佳的问题,该文提出了一种利用分类体系结构信息的双向特征选择算法,并在该方法基础上实现标题分类。该方法以具有严格层级关系的分类体系为应用前提,利用类别与词的同现和分布关系进行特征词和候选类别的双向选择,构建类别向量空间;通过分析标题文本特征词在层级类别向量空间的分布所表现出的类别语义信息,确定文本所在层级以及所在层级的候选类别;之后利用分类器对未能成功分类的标题进行分类。在人工标引数据集上的实验结果表明,该方法在不进行语料扩展和外部知识库添加的基础上仍可有效地确定文本所在层级,实现多级学科的分类;并可在识别类别语义信息的基础上,降低候选类别数目,提高分类效率。  相似文献   

2.
文本分类是海量文本组织和管理的重要方法,文章提出了基于段落匹配的文本分类机制。其基本思想是:对于文本特征向量进行概念扩充,减少特征项之间的相关性,增强特征项的表现能力。选取文本段落作为分类的基本要素,通过段落匹配的约束,防止由发散特征引起的假相关现象,从而获取较高精度的文本分类结果。  相似文献   

3.
KNN算法在数据挖掘的分支-文本分类中有重要的应用。在分析了传统KNN方法不足的基础上,提出了一种基于关联分析的KNN改进算法。该方法首先针对不同类别的训练文本提取每个类别的频繁特征集及其关联的文本,然后基于对各个类别文本的关联分析结果,为未知类别文本确定适当的近邻数k,并在已知类别的训练文本中快速选取k个近邻,进而根据近邻的类别确定未知文本的类别。相比于基于传统KNN的文本分类方法,改进方法能够较好地确定k值,并能降低时间复杂度。实验结果表明,文中提出的基于改进KNN的文本分类方法提高了文本分类的效率和准确率。  相似文献   

4.
提出了一种基于字特征的中文文本分类方法。该方法的出发点是变常用的基于表层的匹配为基于概念的匹配,用汉字特征向量作为文本的表示方法。算法根据文本中汉字的特征建立文本表示矩阵和类别表示矩阵,并通过线性最小二乘算法形成分类矩阵。  相似文献   

5.
利用交叉分类机制共享因特网上各种语言的信息资源是知识挖掘的重要方法,本文给出了双语交叉分类的模型以及实现方法。其主要思想是不需要进行机器翻译和人工标注,利用文本特征抽取机制提取类别特征项和文本特征项,通过基于概念扩充的对译映射规则自动生成类别和文本特征向量,在此基础上利用潜在语义分析,将双语文本在语义层面上统一起来,通过类别与文本的语义相似度进行分类。从而获取较高的精度。  相似文献   

6.
文本分类是处理电子可读文本的重要手段,本文提出了基于标题的文本分类机制.其基本思想是:鉴于文本标题的重要性和简洁性,利用汉语语义分类树寻求概念上的扩充,利用语料库的关联矩阵,进行关联扩充,以丰富标题的语义内涵,从而获取较高精度的文本分类结果.该方法不依赖于汉语分析器和相应的领域知识库,速度较快。应用面较广.  相似文献   

7.
文本特征区域与文本过滤的匹配机制   总被引:3,自引:0,他引:3  
为了根据用户的信息需求,在因特网上搜索相关文本,该文提出了一种文本过滤的匹配机制,其基本思想是:利用基于词典的概念扩张方法,改进用户模板。计算扩张的用户模板与文本的全局相似度,获取初步的过滤结果;在文本特征区域,进行标题、摘要段、首段和尾段等片断的局部相似度计算,以综合评价文本与用户模板的匹配情况。该方法可操作性强,效果明显。  相似文献   

8.
基于概念的文本类别特征提取与文本模糊匹配   总被引:15,自引:1,他引:15  
文本信息特征提取和文本分类是当前智能信息服务系统基础研究的重点。该文给出一种新的类别特征提取与文本匹配方法。首先对术语特征权进行了综合计算,然后基于概念网络术语—概念映射关系,将特征权由术语空间转换到概念空间并做权值限幅处理。在此基础上,通过对概念进行类内和类间的统计分析,得到类别特征的均值与方差两个向量,通过模糊距离计算来对文本进行类别匹配。该文方法克服了传统IDF方法缺点,能有效地从概念上提取文本类特征,提高文本自动分类的准确性。  相似文献   

9.
自动文本分类是指在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。现有的文本分类算法大都基于向量空间模型,因而不能充分表达文档的语义特征信息,从而影响了分类器性能。针对此问题,本文通过训练文档构造相似矩阵,从中获得每个类别的主题信息,由此构造分类器,最后与经典的分类器进行组合以确定文本类别。实验系统证明本文提出的分类方法较大改进了分类器性能。  相似文献   

10.
李琳  段围  周栋  袁景凌 《软件学报》2022,33(7):2618-2632
法律条文(简称法条)是司法量刑的主要依据,法律条文的精准推荐,能够辅助提高法律智能判决的质量.目前,主流的法条推荐模型是将有限数量的法条当作类别标签,采用分类的思想,根据法律文书的案例描述将其归类到相关的法条.但是法条作为法律规范的文字表述形式,现有的分类方法简单将其作为类别标签的索引编号,导致对其语义信息利用不足,影响了推荐质量.针对此问题,研究将主流的法条推荐方法从分类模型转化为语义匹配模型,提出了基于深度语义匹配的法条推荐方法(DeepLawRec).该方法包含局部语义匹配模块和全局语义推荐模块,分别设计双向Transformer卷积网络模型和基于回归树的推荐模型,在理解文本序列的同时,关注与法条匹配学习相关的局部语义特征,增强法条推荐的准确率和可解释性.在公开数据集上的实验结果表明,DeepLawRec方法在推荐质量上优于传统的文本分类以及经典的语义匹配方法,并进一步探讨了如何分析和判读推荐结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号