首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于概念扩充的中文文本过滤模型   总被引:8,自引:0,他引:8  
1 前言今天,以因特网为主体的信息高速公路仍在不断普及和发展,因特网上蕴涵的海量信息远远超过人们的想象,面对这样的信息汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”问题。如何帮助人们有效地选择和利用所感兴趣的信息,同时保证人们在信息选择方面的个人隐私权利?这已成为学术界和企业界所十分关注的焦点。因此,信息过滤技术应  相似文献   

2.
基于概念的中文文本可视化表示机制   总被引:1,自引:0,他引:1  
为了浏览因特网上日益增多的在线中文文本,本文给出了基于概念的中文文本可视化表示机制,以直观的方式组织和表示文本及文本集,其基本思想是:首先在概念扩充的基础上,进行文本分类,然后,利用本文提出的提出的文本特征抽取方法和摘要方法,获取广西类别、广西、广西正文的标记的信息,通过类别,文本、有选择地浏览文本。  相似文献   

3.
基于概念扩充的文本过滤模型   总被引:7,自引:1,他引:7  
该文在介绍文本过滤的背景及向量空间模型的同时,提出了基于语义词典对用户模板进行扩充的文本过滤模型,该模型首先对文本进行分析,把文本表示成向量空间中的向量形式,在形成用户初始模板之后,对用户模板进行同义词扩充,形成扩充后的用户模板,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能。实验表明,这样的确可以提高系统覆盖面,提高系统效率。  相似文献   

4.
基于概念的文本类别特征提取与文本模糊匹配   总被引:15,自引:1,他引:15  
文本信息特征提取和文本分类是当前智能信息服务系统基础研究的重点。该文给出一种新的类别特征提取与文本匹配方法。首先对术语特征权进行了综合计算,然后基于概念网络术语—概念映射关系,将特征权由术语空间转换到概念空间并做权值限幅处理。在此基础上,通过对概念进行类内和类间的统计分析,得到类别特征的均值与方差两个向量,通过模糊距离计算来对文本进行类别匹配。该文方法克服了传统IDF方法缺点,能有效地从概念上提取文本类特征,提高文本自动分类的准确性。  相似文献   

5.
基于向量空间模型的网页文本表示改进算法   总被引:7,自引:0,他引:7  
曾致远  张莉 《计算机工程》2006,32(3):134-135,139
介绍了一种新的文本表示算法,应用在网页文本过滤系统中。比起传统的向量空间模型,这种建立在其上的改进算法有更快的过滤速度和更高的过滤精度。该算法直接从过滤模板的特征集中取出词条,只在网页文本出现该词的地方进行精确处理。根据特征项所在的网页标签,赋予不同的权值系数,以准确定义特征词在文中的重要程度,最后建立该网页的文本表示模型。  相似文献   

6.
短文本的分布式表示已经成为文本数据挖掘的一项重要任务.然而,直接应用分布式表示模型Paragraph Vector尚有不足,其根本原因是其在训练过程中并没有利用到语料库级别的信息,从而不能有效改善短文本中语境信息不足的情况.鉴于此,提出了一种面向短文本分析的分布式表示模型——词对主题句向量模型(biterm topic paragraph vector, BTPV),该模型通过将词对主题模型(biterm topic model, BTM)得出的主题信息融入Paragraph Vector中,不仅使得模型训练过程中利用到了全局语料库的信息,而且还利用BTM显性的主题表示完善了Paragraph Vector隐性的空间向量.实验采用爬取到的热门新闻评论作为数据集,并选用K-Means聚类算法对各模型的短文本表示效果进行比较.实验结果表明,基于BTPV模型的分布式表示较常见的分布式向量化模型word2vec和Paragraph Vector来说能取得更好的短文本聚类效果,从而显现出该模型面向短文本分析的优势.  相似文献   

7.
基于WordNet概念向量空间模型的文本分类   总被引:5,自引:0,他引:5  
文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。  相似文献   

8.
该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科条目在语料中覆盖度不足的问题,该文提出了一种基于全局信息自学习维基百科类别的方法。该文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在当特征数量较少时(如:<700),分类的F1值提高了5.14%。  相似文献   

9.
为了解决传统文本过滤以联,提出了一种基于概念格的文本过滤模型.在以传统的向量空问模型对文本进行表示的基础上,将文本与文本特征之间的关系以概念格的形式加以表示.设计了基于领域本体的概念相似度的计算方法,以概念相似度对概念之间的关联进行衡量.利用了概念格中的层次关系,设计了一个基于概念格的匹配过滤算法.实验结果表明,该模型...  相似文献   

10.
Web文本表示方法作为所有Web文本分析的基础工作,对文本分析的结果有深远的影响。提出了一种多维度的Web文本表示方法。传统的文本表示方法一般都是从文本内容中提取特征,而文档的深层次特征和外部特征也可以用来表示文本。本文主要研究文本的表层特征、隐含特征和社交特征,其中表层特征和隐含特征可以由文本内容中提取和学习得到,而文本的社交特征可以通过分析文档与用户的交互行为得到。所提出的多维度文本表示方法具有易用性,可以应用于各种文本分析模型中。在实验中,改进了两种常用的文本聚类算法——K-means和层次聚类算法,并命名为多维度K-means MDKM和多维度层次聚类算法MDHAC。通过大量的实验表明了本方法的高效性。此外,我们在各种特征的结合实验结果中还有一些深层次的发现。  相似文献   

11.
基于概念树扩展的中文文本检索研究   总被引:2,自引:0,他引:2       下载免费PDF全文
分析了概念在语义层次上的扩展,将概念树中的父子概念关系用词语的相似度进行量化。提出了检索概念权重计算的两种方法和一种基于检索概念的文本概念权重计算方法,并将这些方法用于中文文本检索,因此,构建了基于概念树扩展的两个文本检索模型。实验显示,这两个检索模型的精确率与关键词检索模型保持基本一致,召回率却得到较大提高。  相似文献   

12.
文本表示是自然语言处理中的基础任务,针对传统短文本表示高维稀疏问题,提出1种基于语义特征空间上下文的短文本表示学习方法。考虑到初始特征空间维度过高,通过计算词项间互信息与共现关系,得到初始相似度并对词项进行聚类,利用聚类中心表示降维后的语义特征空间。然后,在聚类后形成的簇上结合词项的上下文信息,设计3种相似度计算方法分别计算待表示文本中词项与特征空间中特征词的相似度,以形成文本映射矩阵对短文本进行表示学习。实验结果表明,所提出的方法能很好地反映短文本的语义信息,能对短文本进行合理而有效的表示学习。  相似文献   

13.
提出一种基于概念和语义相似度的聚类算法TCBCSS(Text Clustering Based on Concept and Semantic Similarity),TCBCSS算法基于WordNet对文档概念进行抽取和归并,形成语义网络,利用小世界理论和网络的几何特性对其进行分析并构建概念列表来表示文档,不仅有效解决了“表达差异”问题也有利于文档相似度的计算。TCBCSS算法利用两个概念列表的语义相似度作为文档间相近程度的度量,以图为基础进行聚类分析,避免了有些聚类算法对聚簇形状的限制,试验证明TCBCSS算法提高了聚类质量。  相似文献   

14.
多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来推进这一研究方向。一方面,构建的层级图标签表示,除了学习每个标签的局部语义外,还进一步研究多个标签共享的全局语义。另一方面,为了捕捉标签和文本内容间的联系并加以利用,使用标签文本注意机制来引导文本特征的学习过程。在三个多标签基准数据集上的实验表明,该模型与其他方法相比具有更好的分类性能。  相似文献   

15.
对高维特征集的降维是文本分类的一个主要问题。在分析现有特征降维方法的基础上,借助《知网》提出一种新的二次降维方法:采用传统的特征选择方法提取一个候选特征集合;利用《知网》对候选集合中的特征项进行概念映射,把大量底层分散的原始特征项替换成少量的高层概念进行第二次特征降维。实验表明,这种方法可以在减少文本语义信息丢失的前提下,有效地降低特征空间维数,提升文本分类的准确度。  相似文献   

16.
刘晓聪  王华珍  何霆  缑锦  陈坚 《计算机应用研究》2021,38(7):1930-1936,1946
为了及时掌握医学文本表示学习的研究现状,对其现有研究进行系统全面综述.首先,基于技术范式对现有技术进行分类,分别从基于统计学习的方法、基于知识图谱表示的方法和基于图表示的方法,对医学文本表示学习主流方法和相应的代表性成果进行总结.然后,提出了运用定量和定性的质量评测体系,系统地梳理和总结了医学文本表示学习的质量评测方法.最后,对医学文本表示学习的研究趋势进行了展望.  相似文献   

17.
文本特征选择是文本分类和信息提取的关键技术。针对文本分类中特征向量的高维稀疏问题,提出了非负矩阵分解和概念语义空间结合的特征抽取方法,对特征矩阵分解算法加入非负限制能够给出概念语义向量面向主题的解释,较好体现文本的局部特征。采用非负矩阵分解对全局和局部语义空间进行降维处理提高了体征提取效率,对不同概念语义空间中文本分类效果比对分析。实验结果表明基于非负矩阵分解的局部概念语义空间中文本分类精度较高。  相似文献   

18.
文本表示是自然语言处理中的基础任务,通常的文本表示模型都是基于训练数据充分的情况下进行。而在训练数据缺乏时,无法完成自然语言处理任务。提出了一种基于维基百科的文本表示方法,引入维基百科词条之间的关系,通过PageRank传播模型,能够一定程度上解决训练数据缺乏时文本表示的问题。通过实验论证了基于维基百科的文本表示能够增强分类方法的准确率、召回率和F1-测度。  相似文献   

19.
Web文本聚类大多是基于空间向量文本表示模型的,它没有考虑特征词之间的语义关系,并且特征词的维数非常高,造成文本语义信息的损失和时间复杂度的增加。把文本作为对象,文本中的特征词作为对应的属性,形成了基于文本的形式背景,从中提取概念来表示文本并度量文本之间的相似度,从而降低了特征词的维数,减少了计算的复杂度,取得了良好的聚类结果。  相似文献   

20.
文档聚类随着网上文本数量的激增以及实际应用中的需求,引起了人们广泛的关注。针对目前文档聚类的主要缺陷,提出了一种新的基于本体的抽象度可调文档聚类(Adjustable Text Clustering using Abstract Degree of Concept,ATCADC)。该方法采用Wordnet对VSM特征词进行概念映射和消歧处理,利用生成的特征概念实现文档语义层面上的矢量描述,并在二次特征选择的基础上,完成合成聚类(AHC)。方法能够依据用户设定的概念抽象度,借助专门设计的语义中心矢量调节聚类,还可利用关键特征概念对聚类簇进行解释。实验结果证明,聚类精度高,聚类簇可解释,调节效果有效,能够满足用户不同概念抽象度层次上的聚类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号