共查询到20条相似文献,搜索用时 218 毫秒
1.
2.
3.
随着网络信息的迅猛发展 ,特别是Internet上在线信息的增加 ,文本自动分类系统成为重要的研究方向。本文首先描述了基于统计 (主要是向量空间模型 )的分类方法的优点和不足 ,然后重点综述了基于概念的文本自动分类的几种方法和实现技术 ,最后 ,文章给出了今后的研究方向。 相似文献
4.
文本自动分类技术为Internet上日益严重的"信息过载"问题提供了一种强有力的解决方法.面向中文文本分类领域,将ontology引入到N-Gram统计文本模型中,提出了一种基于"领域概念 有效词链"的多索引策略和相应的权重计算、参数平滑方法.通过在真实数据集上实验表明:应用领域本体的N-Gram中文文本分类模型不仅降低了索引项的数目,而且提高了文本分类的准确率. 相似文献
5.
面向Web信息资源的领域本体模型自动构建机制的研究 总被引:1,自引:1,他引:0
领域本体的构建是本体工程研究与应用的重要内容。面向网络Web信息资源,获取领域相关文本信息,通过对文本的概念分析,构建领域本体模型。提出一套本体自动构建机制,该本体构建基于数据挖掘和机器学习技术,内容主要包括基于贝叶斯(Bayes)分类原理;提出多个分类器方式的概念分类过程和算法;提出概念关联分析和概念自学习算法,建立本体原型;提出面向OWL本体模型的转换映射机制,构建基于OWL的本体模型。此外,还提出了从网络资源获取、领域本体建模到本体实施应用的一套完整的本体构建和应用实施的解决方案。 相似文献
6.
文本分类技术是信息过滤、搜索引擎等领域的基础,是当下研究热点之一。本文在介绍文本分类相关概念、深度学习相关模型的基础上,通过分析传统文本分类方法存在的不足,提出基于变分自编码器模型和深度置信网络模型(VAE-DBN)的双模型融合的文本分类方法。通过在相关语料集上的对比验证,表明该双模型方法能有效提高文本分类的准确性。 相似文献
7.
基于语义相关和概念相关的自动分类方法研究 总被引:4,自引:0,他引:4
文章区别于传统的基于词的中文文本自动分类方法,在选取文本特征时,考虑了词语的语言学信息以及词语概念之间的相关性,提出基于语义的方法和基于概念属性的方法,建立了分类模型。实验表明,改进后的这两种方法使分类系统具有较高的精度。 相似文献
8.
9.
随着网络信息的迅猛发展,自动信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向。本文介绍了数字图书馆的概念和主要特点,同时对自动信息处理的关键技术,包括文本的表示、特征提取、机器学习方法,进行了研究和探讨,提出了一种基于信息处理的数字图书馆知识服务系统。 相似文献
10.
基于概念的文本类别特征提取与文本模糊匹配 总被引:15,自引:1,他引:15
文本信息特征提取和文本分类是当前智能信息服务系统基础研究的重点。该文给出一种新的类别特征提取与文本匹配方法。首先对术语特征权进行了综合计算,然后基于概念网络术语—概念映射关系,将特征权由术语空间转换到概念空间并做权值限幅处理。在此基础上,通过对概念进行类内和类间的统计分析,得到类别特征的均值与方差两个向量,通过模糊距离计算来对文本进行类别匹配。该文方法克服了传统IDF方法缺点,能有效地从概念上提取文本类特征,提高文本自动分类的准确性。 相似文献
11.
相比于单一语言的短文本情感分类而言,混合语言由于其表达情感的单词语言不唯一,语法结构复杂,仅使用传统词嵌入的方法无法使分类器学到足够有用的特征,导致分类效果不佳。针对这些问题,提出一种融合字词特征的双通道复合模型。首先,针对数据集不平衡问题,提出一种基于Bert语义相似度的数据集欠采样算法;其次,构建双通道深度学习网络,分别将以字、词方式嵌入的原始数据通过两个通道送入CNN和带有注意力机制的LSTM组成的模块中进行多粒度特征提取;最后融合多通道的特征进行分类。在NLPCC2018任务1公布的混合语言五分类数据集上的实验表明,该模型的整体性能较目前有代表性的深度学习模型有进一步提高。 相似文献
12.
《Expert systems with applications》2014,41(2):735-743
Short-text classification is increasingly used in a wide range of applications. However, it still remains a challenging problem due to the insufficient nature of word occurrences in short-text documents, although some recently developed methods which exploit syntactic or semantic information have enhanced performance in short-text classification. The language-dependency problem, however, caused by the heavy use of grammatical tags and lexical databases, is considered the major drawback of the previous methods when they are applied to applications in diverse languages. In this article, we propose a novel kernel, called language independent semantic (LIS) kernel, which is able to effectively compute the similarity between short-text documents without using grammatical tags and lexical databases. From the experiment results on English and Korean datasets, it is shown that the LIS kernel has better performance than several existing kernels. 相似文献
13.
14.
15.
社交媒体上短文本情感倾向性分析作为情感分析的一个重要分支,受到越来越多研究人员的关注。为了改善短文本特定目标情感分类准确率,提出了词性注意力机制和LSTM相结合的网络模型PAT-LSTM。将文本和特定目标映射为一定阈值范围内的向量,同时用词性标注处理句子中的每个词,文本向量、词性标注向量和特定目标向量作为模型的输入。PAT-LSTM可以充分挖掘句子中的情感目标词和情感极性词之间的关系,不需要对句子进行句法分析,且不依赖情感词典等外部知识。在SemEval2014-Task4数据集上的实验结果表明,在基于注意力机制的情感分类问题上,PAT-LSTM比其他模型具有更高的准确率。 相似文献
16.
针对网络流特征会随网络环境变化而发生改变,从而导致基于流特征的机器学习分类方法精度明显降低的问题。提出一种基于概念漂移检测的自适应流量分类方法,该方法借助Kolmogorov-Smirnov检验对出现的流量进行概念漂移检测,然后通过多视图协同学习策略引入新流量样本修正概念漂移导致的模型变化,使分类器得到有效更新。实验结果表明该方法可以有效检测概念漂移并更新分类器,表现出较好的分类性能和泛化能力。 相似文献
17.
基于轨迹的程序语义之一:轨迹与语义对象 总被引:2,自引:0,他引:2
本文提出一种基于轨迹的指称语义框架,该框架结合了操作语义和代数语义的特征,避免使用专门的数学理论,将静态语义和动态语义结合在一起统一处理.本文及其续篇将通过一个中等规模的过程式模型语言来说明上述语义框架更适合描述真正的程序设计语言.本文首先引入轨迹概念和模型语言,然后讨论该语言的各句法成分所对应的语义论域,其中没有使用含有函数空间构造运算的递归论域方程. 相似文献
18.
Jesús OlivaAuthor Vitae José Ignacio Serrano Author VitaeMaría Dolores del Castillo Author Vitae Ángel Iglesias Author Vitae 《Data & Knowledge Engineering》2011,70(4):390-405
Sentence and short-text semantic similarity measures are becoming an important part of many natural language processing tasks, such as text summarization and conversational agents. This paper presents SyMSS, a new method for computing short-text and sentence semantic similarity. The method is based on the notion that the meaning of a sentence is made up of not only the meanings of its individual words, but also the structural way the words are combined. Thus, SyMSS captures and combines syntactic and semantic information to compute the semantic similarity of two sentences. Semantic information is obtained from a lexical database. Syntactic information is obtained through a deep parsing process that finds the phrases in each sentence. With this information, the proposed method measures the semantic similarity between concepts that play the same syntactic role. Psychological plausibility is added to the method by using previous findings about how humans weight different syntactic roles when computing semantic similarity. The results show that SyMSS outperforms state-of-the-art methods in terms of rank correlation with human intuition, thus proving the importance of syntactic information in sentence semantic similarity computation. 相似文献
19.
20.
网络流量特征分布的动态变化产生概念漂移问题,造成基于机器学习的网络流量分类模型精度下降.定期更新分类模型耗时且无法保证分类模型的泛化能力.基于此,提出一种基于散度的网络流概念漂移分类方法(ensemble classification based on divergence detection, ECDD),采用双层窗口机制,从信息熵的角度出发,根据流量特征分布的JS散度,记为JSD(Jensen-Shannon divergence)来度量滑动窗口内数据分布的差异,从而检测概念漂移.借鉴增量集成学习的思想,检测到漂移时对于新样本重新训练出新的分类器,之后通过分类器权值排序,保留性能较高的分类器,加权集成分类结果对样本进行分类.抓取常见的网络应用流量,根据应用特征分布的不同构建概念漂移数据集,将该方法与常见的概念漂移检测方法进行实验对比,实验结果表明:该方法可以有效地检测概念漂移和更新分类器,表现出较好的分类性能. 相似文献