首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
文本分类是文本挖掘的一个重要组成部分,是信息搜索领域的一项重要研究课题。该文提出一种基于文章标题信息的汉语自动文本分类方法,在HNC理论的领域概念框架下,通过标题信息所蕴涵的领域信息词语激活对应的HNC领域,实现文本的自动分类。实验证明,该方法与采用SVM算法进行文本分类的方法比较,测试速度和分类平均准确率明显提高。  相似文献   

2.
基于领域词语本体的短文本分类   总被引:2,自引:0,他引:2  
短文本自身长度较短,描述概念能力弱,常用文本分类方法都不太适用于短文本分类.提出了基于领域词语本体的短文本分类方法.首先抽取领域高频词作为特征词,借助知网从语义方面将特征词扩展为概念和义元,通过计算不同概念所包含相同义元的信息量来衡量词的相似度,从而进行分类.对比实验表明,该方法在一定程度上弥补了短文本特征不足的缺点,且提高了准确率和召回率.  相似文献   

3.
随着网络信息的迅猛发展 ,特别是Internet上在线信息的增加 ,文本自动分类系统成为重要的研究方向。本文首先描述了基于统计 (主要是向量空间模型 )的分类方法的优点和不足 ,然后重点综述了基于概念的文本自动分类的几种方法和实现技术 ,最后 ,文章给出了今后的研究方向。  相似文献   

4.
刘金红  陆余良 《计算机工程与设计》2007,28(13):3213-3215,3219
文本自动分类技术为Internet上日益严重的"信息过载"问题提供了一种强有力的解决方法.面向中文文本分类领域,将ontology引入到N-Gram统计文本模型中,提出了一种基于"领域概念 有效词链"的多索引策略和相应的权重计算、参数平滑方法.通过在真实数据集上实验表明:应用领域本体的N-Gram中文文本分类模型不仅降低了索引项的数目,而且提高了文本分类的准确率.  相似文献   

5.
面向Web信息资源的领域本体模型自动构建机制的研究   总被引:1,自引:1,他引:0  
金鑫 《计算机科学》2012,39(6):213-216
领域本体的构建是本体工程研究与应用的重要内容。面向网络Web信息资源,获取领域相关文本信息,通过对文本的概念分析,构建领域本体模型。提出一套本体自动构建机制,该本体构建基于数据挖掘和机器学习技术,内容主要包括基于贝叶斯(Bayes)分类原理;提出多个分类器方式的概念分类过程和算法;提出概念关联分析和概念自学习算法,建立本体原型;提出面向OWL本体模型的转换映射机制,构建基于OWL的本体模型。此外,还提出了从网络资源获取、领域本体建模到本体实施应用的一套完整的本体构建和应用实施的解决方案。  相似文献   

6.
文本分类技术是信息过滤、搜索引擎等领域的基础,是当下研究热点之一。本文在介绍文本分类相关概念、深度学习相关模型的基础上,通过分析传统文本分类方法存在的不足,提出基于变分自编码器模型和深度置信网络模型(VAE-DBN)的双模型融合的文本分类方法。通过在相关语料集上的对比验证,表明该双模型方法能有效提高文本分类的准确性。  相似文献   

7.
基于语义相关和概念相关的自动分类方法研究   总被引:4,自引:0,他引:4  
文章区别于传统的基于词的中文文本自动分类方法,在选取文本特征时,考虑了词语的语言学信息以及词语概念之间的相关性,提出基于语义的方法和基于概念属性的方法,建立了分类模型。实验表明,改进后的这两种方法使分类系统具有较高的精度。  相似文献   

8.
基于本体的文本分类方法未考虑本体概念自身所含有的信息量及忽略本体推理功能。为此,以旅游领域为背景,提出一种基于领域本体的文本分类方法。该方法采用本体自身结构作为分类标准,通过计算特征项和本体概念间的语义关联度及结合本体的推理功能,将文本划分到合适的本体概念下作为概念的实例。实验结果证明,与传统方法相比,该方法的分类方法F1值至少提高8.7%。  相似文献   

9.
随着网络信息的迅猛发展,自动信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向。本文介绍了数字图书馆的概念和主要特点,同时对自动信息处理的关键技术,包括文本的表示、特征提取、机器学习方法,进行了研究和探讨,提出了一种基于信息处理的数字图书馆知识服务系统。  相似文献   

10.
基于概念的文本类别特征提取与文本模糊匹配   总被引:15,自引:1,他引:15  
文本信息特征提取和文本分类是当前智能信息服务系统基础研究的重点。该文给出一种新的类别特征提取与文本匹配方法。首先对术语特征权进行了综合计算,然后基于概念网络术语—概念映射关系,将特征权由术语空间转换到概念空间并做权值限幅处理。在此基础上,通过对概念进行类内和类间的统计分析,得到类别特征的均值与方差两个向量,通过模糊距离计算来对文本进行类别匹配。该文方法克服了传统IDF方法缺点,能有效地从概念上提取文本类特征,提高文本自动分类的准确性。  相似文献   

11.
相比于单一语言的短文本情感分类而言,混合语言由于其表达情感的单词语言不唯一,语法结构复杂,仅使用传统词嵌入的方法无法使分类器学到足够有用的特征,导致分类效果不佳。针对这些问题,提出一种融合字词特征的双通道复合模型。首先,针对数据集不平衡问题,提出一种基于Bert语义相似度的数据集欠采样算法;其次,构建双通道深度学习网络,分别将以字、词方式嵌入的原始数据通过两个通道送入CNN和带有注意力机制的LSTM组成的模块中进行多粒度特征提取;最后融合多通道的特征进行分类。在NLPCC2018任务1公布的混合语言五分类数据集上的实验表明,该模型的整体性能较目前有代表性的深度学习模型有进一步提高。  相似文献   

12.
Short-text classification is increasingly used in a wide range of applications. However, it still remains a challenging problem due to the insufficient nature of word occurrences in short-text documents, although some recently developed methods which exploit syntactic or semantic information have enhanced performance in short-text classification. The language-dependency problem, however, caused by the heavy use of grammatical tags and lexical databases, is considered the major drawback of the previous methods when they are applied to applications in diverse languages. In this article, we propose a novel kernel, called language independent semantic (LIS) kernel, which is able to effectively compute the similarity between short-text documents without using grammatical tags and lexical databases. From the experiment results on English and Korean datasets, it is shown that the LIS kernel has better performance than several existing kernels.  相似文献   

13.
基于卷积神经网络的中文医疗弱监督关系抽取   总被引:1,自引:0,他引:1  
随着医疗领域受到越来越多的关注,自然语言处理的理论和应用逐渐拓展到该领域,其中信息抽取技术在该领域的应用成为研究热点。针对信息抽取技术在医疗领域实体关系抽取中的应用,提出一种基于卷积神经网络的弱监督关系抽取方法。该方法通过添加人工规则使训练语料带有实体关系标签,然后将该弱关系训练语料转换为向量特征矩阵,并输入到卷积神经网络进行分类模型训练,最终实现实体关系抽取。实验结果表明,该方法比常规机器学习方法更加准确高效。  相似文献   

14.
针对短文本长度短、描述信号弱的特点,提出了一种利用上下位关系的中文短文本分类框架。该框架首先利用“知网”确定训练文本中概念对的上下位关系,进而确定词语对的上下位关系,再将其用于扩展测试文本的特征向量,从而实现对测试文本的分类。实验表明:利用上下位关系能够改善短文本的分类性能。  相似文献   

15.
社交媒体上短文本情感倾向性分析作为情感分析的一个重要分支,受到越来越多研究人员的关注。为了改善短文本特定目标情感分类准确率,提出了词性注意力机制和LSTM相结合的网络模型PAT-LSTM。将文本和特定目标映射为一定阈值范围内的向量,同时用词性标注处理句子中的每个词,文本向量、词性标注向量和特定目标向量作为模型的输入。PAT-LSTM可以充分挖掘句子中的情感目标词和情感极性词之间的关系,不需要对句子进行句法分析,且不依赖情感词典等外部知识。在SemEval2014-Task4数据集上的实验结果表明,在基于注意力机制的情感分类问题上,PAT-LSTM比其他模型具有更高的准确率。  相似文献   

16.
针对网络流特征会随网络环境变化而发生改变,从而导致基于流特征的机器学习分类方法精度明显降低的问题。提出一种基于概念漂移检测的自适应流量分类方法,该方法借助Kolmogorov-Smirnov检验对出现的流量进行概念漂移检测,然后通过多视图协同学习策略引入新流量样本修正概念漂移导致的模型变化,使分类器得到有效更新。实验结果表明该方法可以有效检测概念漂移并更新分类器,表现出较好的分类性能和泛化能力。  相似文献   

17.
基于轨迹的程序语义之一:轨迹与语义对象   总被引:2,自引:0,他引:2  
王岩冰  陆汝占 《软件学报》1998,9(5):366-370
本文提出一种基于轨迹的指称语义框架,该框架结合了操作语义和代数语义的特征,避免使用专门的数学理论,将静态语义和动态语义结合在一起统一处理.本文及其续篇将通过一个中等规模的过程式模型语言来说明上述语义框架更适合描述真正的程序设计语言.本文首先引入轨迹概念和模型语言,然后讨论该语言的各句法成分所对应的语义论域,其中没有使用含有函数空间构造运算的递归论域方程.  相似文献   

18.
Sentence and short-text semantic similarity measures are becoming an important part of many natural language processing tasks, such as text summarization and conversational agents. This paper presents SyMSS, a new method for computing short-text and sentence semantic similarity. The method is based on the notion that the meaning of a sentence is made up of not only the meanings of its individual words, but also the structural way the words are combined. Thus, SyMSS captures and combines syntactic and semantic information to compute the semantic similarity of two sentences. Semantic information is obtained from a lexical database. Syntactic information is obtained through a deep parsing process that finds the phrases in each sentence. With this information, the proposed method measures the semantic similarity between concepts that play the same syntactic role. Psychological plausibility is added to the method by using previous findings about how humans weight different syntactic roles when computing semantic similarity. The results show that SyMSS outperforms state-of-the-art methods in terms of rank correlation with human intuition, thus proving the importance of syntactic information in sentence semantic similarity computation.  相似文献   

19.
针对自然语言中数学领域的特点,提出了一种智能辅导系统中建立模型的方法。该方法通过对语义理解结果的名词聚类分析,调用静态知识库中相应的内涵模型,根据静态知识库中对内涵模型的描述在语义理解结果中搜集相应的信息使抽象概念具体化。在此基础上依据领域知识对题目进行信息挖掘,并根据题目类型对信息进行约简,从而建立模型。这种建模方法在智能辅导系统中得到了较好的应用。  相似文献   

20.
网络流量特征分布的动态变化产生概念漂移问题,造成基于机器学习的网络流量分类模型精度下降.定期更新分类模型耗时且无法保证分类模型的泛化能力.基于此,提出一种基于散度的网络流概念漂移分类方法(ensemble classification based on divergence detection, ECDD),采用双层窗口机制,从信息熵的角度出发,根据流量特征分布的JS散度,记为JSD(Jensen-Shannon divergence)来度量滑动窗口内数据分布的差异,从而检测概念漂移.借鉴增量集成学习的思想,检测到漂移时对于新样本重新训练出新的分类器,之后通过分类器权值排序,保留性能较高的分类器,加权集成分类结果对样本进行分类.抓取常见的网络应用流量,根据应用特征分布的不同构建概念漂移数据集,将该方法与常见的概念漂移检测方法进行实验对比,实验结果表明:该方法可以有效地检测概念漂移和更新分类器,表现出较好的分类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号