首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 140 毫秒
1.
基于上下文的短信文本分类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统的简单向量距离分类法相比,该方法的分类效果较优。  相似文献   

2.
该文提出了一种基于情感词向量的情感分类方法。词向量采用连续实数域上的固定维数向量来表示词汇,能够表达词汇丰富的语义信息。词向量的学习方法,如word2vec,能从大规模语料中通过上下文信息挖掘出潜藏的词语间语义关联。本文在从语料中学习得到的蕴含语义信息的词向量基础上,对其进行情感调整,得到同时考虑语义和情感倾向的词向量。对于一篇输入文本,基于情感词向量建立文本的特征表示,采用机器学习的方法对文本进行情感分类。该方法与基于词、N-gram及原始word2vec词向量构建文本表示的方法相比,情感分类准确率更高、性能和稳定性更好。  相似文献   

3.
融合语义特征的关键词提取方法   总被引:1,自引:0,他引:1  
关键词提取被广泛应用于文本挖掘领域,是文本自动摘要、自动分类、自动聚类等研究的基础。因此,提取高质量的关键词具有十分重要的研究意义。已有关键词提取方法研究中大多仅考虑了部分文本的统计特征,没有考虑词语的隐式语义特征,导致提取结果的准确率不高,且关键词缺乏语义信息。针对这一问题,文中设计了一种针对词语与文本主题之间的特征进行量化的算法。该算法首先用词向量的方法挖掘文本中词语的上下文语义关系,然后通过聚类方法抽取文本中主要的语义特征,最后用相似距离的方式计算词语与文本主题之间的距离并将其作为该词语的语义特征。此外,通过将语义特征与多种描述词语的词频、长度、位置和语言等特征结合,文中还提出了一种融合语义特征的短文本关键词提取方法,简称SFKE方法。该方法从统计信息和语义层面分析了词语的重要性,从而可以综合多方面因素提取出最相关的关键词集合。实验结果表明,相比TFIDF,TextRank,Yake,KEA和AE等方法,融合多种特征的关键词提取方法的性能有了明显的提升。该方法与基于有监督的AE方法相比,F-Score提升了9.3%。最后,用信息增益的方法对特征的重要性进行评估,结果表明,添加语义特征后模型的F-Score提升了7.2%。  相似文献   

4.
刘金岭  刘丹  周泓 《计算机工程》2012,38(10):67-69
提出一种基于知网的中文短信文本词汇链抽取方法。根据知网的语义关系,利用相同语义类给出上下文词汇项信息,构造多条词汇链,表达短信文本的多条叙事线索,从中抽取富含短信文本信息的词汇链,表达短信文本的语义信息,采用词汇链的关键词集合进行文本分类。实验结果证明,该方法的抽取准确率较高,文本分类速度较快。  相似文献   

5.
中文短文本具有长度短以及上下文依赖强的特点。目前主流的基于词向量的双向循环神经网络分类方法依赖于词向量语义表达以及上下文特征提取能力,其分类准确率有待进一步改善。针对此问题,论文提出融合语义增强的中文短文本分类方法,该方法提出融合语义增强的思想,在词向量表示阶段,引入Bert生成融合字、文本以及位置的向量作为训练文本的词表征进行文本语义增强,接着输送到Bi-GRU网络中提取上下文关系特征,并通过多头注意力机制调整权值强化重要特征表达,最后使用softmax分类器进行文本分类。通过与其他主流方法进行对比论证,实验表明,论文提出的方法在短文本分类效果上有显著提升。  相似文献   

6.
基于语义的中文文本关键词提取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基于统计特征的关键词提取算法相比,SKE算法提取的关键词能体现文档的主题,更符合人们的感知逻辑,且算法性能较优。  相似文献   

7.
基于上下文词语同现向量的词语相似度计算   总被引:3,自引:0,他引:3  
词语的语义相似度是词语间语义相似紧密的一种数量化表示。提出一种词语的语义相似度计算方法 ,利用上下文词语同现向量来描述词语的语义知识 ,在此基础上 ,使用 min/ max的方法计算词语之间的语义相似度。实验结果表明 ,该方法能够比较准确地反映词语之间的语义关系 ,为词语间的语义关系提供一种有效度量。  相似文献   

8.
针对现有的金融文本情感分类模型在对文本表示进行建模时忽略了上下文语义和情感倾向之间交互关系的问题,本文提出了基于交互式学习与多头注意力机制的金融文本情感分类模型(Interactive learning and multi-head attention mechanism,ILMA)。该模型首先利用BERT模型来获得上下文和情感倾向信息的词嵌入表示;然后分别使用两个双向GRU(BiGRU)神经网络来学习上下文语义和情感倾向信息的随机依赖性;之后利用交互式学习机制和多头注意力机制来学习文本语境语义与情感倾向信息之间的交互表示;最后将生成的上下文语义和情感倾向信息的表示序列进行连接后,作为softmax分类器的输入进行分类。在四个公开的金融数据集上进行了实验,将ILMA模型与其他方法进行比较,结果表明ILMA模型的分类准确性相对于其他模型有了显著提升。  相似文献   

9.
文档中词语权重计算方法的改进   总被引:57,自引:5,他引:52  
文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型(Vector Space Model) 中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一,但现在tf.idf方法无法把握这一因素。针对这个问题,本文引入信息论中信息增益的概念,提出一种对tf.idf的改进方法tf.idf.IG文本表示方法。该方法将词语的信息增益作为一个文本表示的一个因子,来衡量词语在文本集合中分布比例在量上的差异。在文本分类实验中,tf.idf.IG文本表示的向量空间模型的分类效果要好于tf.idf方法,验证了改进方法tf.idf.IG的有效性和可行性。  相似文献   

10.
现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点。向量模型所依赖的文本共现中的上下文信息不等同于真正意义上的语义,而词汇分类体系方法则存在构建代价大,并且在一定程度上还不够完善的问题。该文提出一种向量模型与多源词汇分类体系相结合的词语相似性计算方法,采用多源词汇分类体系的近义词关系以及向量模型得到的词向量,计算得到词语的向量表达,并探索了不同类型词汇分类体系提供的知识的选用和融合问题,弥补了单一词向量和单一词汇分类体系在词语相似性计算中的缺点。该文采用了NLPCC-ICCPOL 2016词语相似度评测比赛中的PKU 500数据集进行评测。在该数据集上,该文的方法取得了0.637的斯皮尔曼等级相关系数,比NLPCC-ICCPOL 2016词语相似度评测比赛第一名的方法的结果提高了23%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号