首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息。该文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与文本出现的词项语义上相似的词加入到文本表示中,实现文本中单词的扩展。然后对扩展后的文本计算相似度。该文将这种方法运用到英文作文的跑题检测中,构建一套跑题检测系统,并在一个真实数据中进行测试。实验结果表明该文的跑题检测系统能有效识别跑题作文,性能明显高于基准系统。
  相似文献   

2.
目前作文自动评分模型缺乏对不同尺度上下文语义特征的提取,未能从句子级别计算与作文主题关联程度的特征。提出基于多尺度上下文的英文作文自动评分研究方法 MSC。采用XLNet英文预训练模型提取原始作文文本单词嵌入和句嵌入,避免在处理长序列文本时无法准确捕捉到符合上下文语境的向量嵌入,提升动态向量语义表征质量,解决一词多义问题,并通过一维卷积模块提取不同尺度的短语级别嵌入。多尺度上下文网络通过结合内置自注意力简单循环单元和全局注意力机制,分别捕捉单词、短语和句子级别的作文高维潜在上下文语义关联关系,利用句向量与作文主题计算语义相似度提取篇章主题层次特征,将所有特征输入融合层通过线性层得到自动评分结果。在公开的标准英文作文评分数据集ASAP上的实验结果表明,MSC模型平均二次加权的Kappa值达到了80.5%,且在多个子集上取得了最佳效果,优于实验对比的深度学习自动评分模型,证明了MSC在英文作文自动评分任务上的有效性。  相似文献   

3.
词语作为文本构成中最具有语义表达的单位,将词语更多的特征如形态学、词性、词性权重等融入到词语语义的表达中,将提升文本相似度量的准确性.该文提出一种融合词语多特征的汉老短文本相似度计算方法,首先利用双向长短期记忆网络(BiLSTM)和卷积神经网络(CNN)分别提取汉老词语的形态学特征,将词向量拼接上形态学特征向量、词性向量、词性权重向量,然后利用BiLSTM和CNN提取汉老短文本的上下文特征和局部语义特征,接着加入ESIM交互注意力机制使汉老语义信息进行交互.最后计算汉老特征语义向量的相对差和相对积,将其结果拼接并输入到全连接层得到汉老双语短文本的相似度分数.实验结果表明,本文提出的方法在有限的语料下取得了更好的效果,F1值达到了78.67%.  相似文献   

4.
周险兵  樊小超  任鸽  杨勇 《计算机应用》2021,41(8):2205-2211
作文自动评分(AES)技术能够自动地对作文进行分析和评分,其已成为自然语言处理技术在教育领域应用的热点研究问题之一。针对目前AES方法割裂了深层和浅层语义特征,忽视了多层次语义融合对作文评分影响的问题,提出了一种基于多层次语义特征的神经网络(MLSF)模型进行AES。首先,采用卷积神经网络(CNN)捕获局部语义特征,并采用混合神经网络捕获全局语义特征,以从深层次获取作文的语义特征;其次,利用篇章级的作文主题向量来获取主题层特征,同时针对深度学习模型难以挖掘的语法错误和语言丰富程度特征,构造了少量人工特征以从浅层获取作文的语言学特征;最后,通过特征融合对作文进行自动评分。实验结果表明,所提出模型在Kaggle ASAP竞赛公开数据集的所有子集上性能均有显著提升,该模型的平均二次加权的卡帕值(QWK)达到79.17%,验证了该模型在AES任务中的有效性。  相似文献   

5.
本文提出了一种基于循环神经网络的语义完整性分析方法,通过判断句子是否语义完整,将长文本切分成多个语义完整句.首先,对文本进行分词,映射为相应的词向量并进行标注,然后将词向量和标注信息通过循环窗口和欠采样方法处理后,作为循环神经网络的输入,经过训练最后得到模型.实验结果表明,该方法可以达到91.61%的准确率,为主观题自动评分工作提供了基础,同时对语义分析、问答系统和机器翻译等研究有一定的帮助.  相似文献   

6.
吴迎岗 《计算机应用与软件》2021,38(12):314-319,340
针对自然语言处理中短文本相似度问题,提出一种基于有序神经元长短期记忆神经网络(Ordered Neurons-Long Short Term Memory,ON-LSTM)的短文本相似度匹配方法.将神经元经过特定排序使层级结构融入到LSTM中,自动学习到层级结构信息,更好地表示文本深层次语义信息,并通过Independent Component(IC)层加快收敛速度,结合整体语义信息表示来计算语义相似度.在数据集上进行多组实验表明,该模型取得81.05%的准确率,有效提升短文本相似的准确率,且收敛速度更快,在一定程度上提高文本语义分析能力.  相似文献   

7.
订单信息贯穿于物流供应链的所有环节,高效的订单处理是保障物流服务质量和运营效率的关键。面对日益增长的差异化客户物流订单,人工对订单分类费时、低效,难以满足现代物流要求的效率标准。为了提升物流订单分类的性能,该文提出了一种基于图卷积神经网络(graph convolution network, GCN)和RoBERTa预训练语言模型的订单分类方法。首先,基于物流订单文本的抽象语义表示(abstract meaning representation, AMR)结果和关键词构建全局AMR图,并使用图卷积神经网络对全局AMR图进行特征提取,获取订单文本的全局AMR图表示向量;其次,基于AMR算法构建物流订单文本分句的局部AMR图集合,然后使用堆叠GCN处理图集合得到订单文本局部AMR图表示向量;再次,使用RoBERTa模型处理物流订单文本,得到文本语义表示向量;最后,融合三种类型的文本表示向量完成物流订单分类。实验结果表明:该方法在多项评价指标上优于其他基线方法。消融实验结果也验证了该分类方法各模块的有效性。  相似文献   

8.
跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。  相似文献   

9.
针对神经网络文本分类模型随着层数的加深,在训练过程中发生梯度爆炸或消失以及学习到的词在文本中的语义信息不够全面的问题,该文提出了一种面向中文新闻文本分类的融合网络模型.该模型首先采用密集连接的双向门控循环神经网络学习文本的深层语义表示,然后将前一层学到的文本表示通过最大池化层降低特征词向量维度,同时保留其主要特征,并采...  相似文献   

10.
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。  相似文献   

11.
该文旨在以HowNet为例,探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型,在大规模语料库上无监督训练得到,但这种框架面临两个问题: 一是低频词的词向量质量难以保证;二是多义词的义项向量无法获得。该文提出了融合HowNet和大规模语料库的义原向量学习神经网络模型,并以义原向量为桥梁,自动得到义项向量及完善词向量。初步的实验结果表明该模型能有效提升在词相似度和词义消歧任务上的性能,有助于低频词和多义词的处理。作者指出,借重于人工知识库的神经网络语言模型应该成为今后一段时期自然语言处理的研究重点之一。  相似文献   

12.
在社交媒体中,存在大量的反讽和讽刺等语言现象,这些语言现象往往表征了一定的情感倾向性。然而这些特殊的语言现象所表达的语义倾向性,通常与其浅层字面含义相去甚远,因此加大了社交媒体中文本情感分析的难度。鉴于此,该文主要研究中文社交媒体中的讽刺语用识别任务,构建了一个覆盖反讽、讽刺两种语言现象的语料库。基于此挖掘反讽和讽刺的语言特点,该文通过对比一些有效领域特征,验证了在反讽和讽刺文本的识别中,其结构和语义等深层语义特征的重要性。同时,该文提出了一种有效的多特征融合的混合神经网络判别模型,融合了卷积神经网络与LSTM序列神经网络模型,通过深层模型学习深层语义特征和深层结构特征,该模型获得了较好的识别精度,优于传统的单一的神经网络模型和BOW(Bag-of-Words)模型。  相似文献   

13.
语义知识资源蕴含了深刻的语言学理论,是语言学知识和语言工程的重要接口。该文以形容词句法语义词典为研究对象,探索对语义知识资源自动扩展的方法。该文的目标是利用大规模语料库,扩展原有词典的词表及其对应的句法格式。具体方法是根据词的句法格式将词典的词分类,将待扩展的新词通过分类器映射到原有词典的词中,以此把词典扩展问题转化为多类分类问题。依据的原理是词典词和待扩展新词在大规模语料中句法结构的相似性。该文通过远监督的方法构造训练数据,避免大量的人工标注。训练过程结合了浅层机器学习方法和深度神经网络,取得了有意义的成果。实验结果显示,深度神经网络能够习得句法结构信息,有效提升匹配的准确率。  相似文献   

14.
该文以联接理论、事件结构理论为指导,进行词汇语义类、语义角色、句法成分对应关系的研究。选择人教社中小学语文课文语料,标注语义角色、句法成分及中心词的词汇语义类。在标注语料库的基础上,统计分析了词汇语义类与语义角色的对应关系,重点分析各语义类语义角色映射为句法成分的规律,并进一步总结了各词汇语义类的语义角色与句法成分的对应的特点。尽管词汇语义类、语义角色、句法成分之间存在错综复杂的关系,但还是有规律的,可以为计算机句法分析提供一些依据。  相似文献   

15.
王宇晖    杜军平    邵蓥侠   《智能系统学报》2023,18(1):186-193
专利文本中包含了大量实体信息,通过命名实体识别可以从中抽取包含关键信息的知识产权实体信息,帮助研究人员更快了解专利内容。现有的命名实体提取方法难以充分利用专业词汇变化带来的词层面的语义信息。本文提出基于Transformer和技术词信息的知识产权实体提取方法,结合BERT语言方法提供精准的字向量表示,并在字向量生成过程中,加入利用字向量经迭代膨胀卷积网络提取的技术词信息,提高对知识产权实体的表征能力。最后使用引入相对位置编码的Transformer编码器,从字向量序列中学习文本的深层语义信息,并实现实体标签预测。在公开数据集和标注的专利数据集的实验结果表明,该方法提升了实体识别的准确性。  相似文献   

16.
在篇章级的情感分类中由于篇章级文本较长,特征提取较普通句子级分析相对较难,大多方法使用层次化的模型进行篇章文本的情感分析,但目前的层次化模型多以循环神经网络和注意力机制为主,单一的循环神经网络结构提取的特征不够明显。本文针对篇章级的情感分类任务,提出一种层次化双注意力神经网络模型。首先对卷积神经网络进行改进,构建词注意力卷积神经网络。然后模型从两个层次依次提取篇章特征,第一层次使注意力卷积神经网络发现每个句子中的重要词汇,提取句子的词特征,构建句子特征向量;第二层次以循环神经网络获取整个篇章的语义表示,全局注意力机制发现篇章中每个句子的重要性,分配以不同的权重,最后构建篇章的整体语义表示。在IMDB、YELP 2013、YELP 2014数据集上的实验表明,模型较当前最好的模型更具优越性。  相似文献   

17.
孙昭颖  刘功申 《计算机科学》2018,45(Z6):392-395
词汇个数少、描述信息弱的缺陷,导致短文本具有维度高、特征稀疏和噪声干扰等特点。现有的众多聚类算法在对大规模短文本进行聚类时,存在精度较低和效率低下的问题。针对该问题,提出一种基于深度学习卷积神经网络的短文本聚类算法。所提算法以大规模语料为基础,利用word2vec 模型学习短文本中词语之间潜在的语义关联,用多维向量表示单个词语,进而将短文本也表示成多维的原始向量形式;结合深度学习卷积神经网络,对稀疏高维的原始向量进行特征提取,以此得到特征更为集中、有效的低维文本向量;最后,利用传统的聚类算法对短文本进行聚类。实验结果表明,所提聚类方法对文本向量的降维是可行、有效的,并且取得了F值达到75%以上的文本聚类效果。  相似文献   

18.
刘金硕  张智 《计算机科学》2016,43(12):277-280
针对因中文食品安全文本特征表达困难,而造成语义信息缺失进而导致分类器准确率低下的问题,提出一种基于深度神经网络的跨文本粒度情感分类模型。以食品安全新闻报道为目标语料,采用无监督的浅层神经网络初始化文本的词语级词向量。引入递归神经网络,将预训练好的词向量作为下层递归神经网络(Recursive Neural Network)的输入层,计算得到具备词语间语义关联性的句子特征向量及句子级的情感倾向输出,同时动态反馈调节词向量特征,使其更加接近食品安全特定领域内真实的语义表达。然后,将递归神经网络输出的句子向量以时序逻辑作为上层循环神经网络(Recurrent Neural Network)的输入,进一步捕获句子结构的上下文语义关联信息,实现篇章级的情感倾向性分析任务。实验结果表明,联合深度模型在食品安全新闻报道的情感分类任务中具有良好的效果,其分类准确率和F1值分别达到了86.7%和85.9%,较基于词袋思想的SVM模型有显著的提升。  相似文献   

19.
蒙古文同形词歧义消除问题是蒙古文信息处理的难点之一。该文提出了基于蒙古语名词语义网的同形词歧义消除方法,设计实现了同形词歧义消除算法,最后给出了语料库中同形词歧义消除实验的设计过程及结果分析。  相似文献   

20.
在此前的汉语未登录词语义预测中,构词相关的知识一直被当做预测的手段,而没有被视为一种有价值的知识表示方式,该文在“语素概念”基础上,深入考察汉语的语义构词知识,给出未登录词的“多层面”的词义知识表示方案。针对该方案,该文采用贝叶斯网络方法,构建面向汉语未登录词的自动语义构词分析模型,该模型能有效预测未登录词的“多层面”的词义知识。这种词义知识表示简单、直观、易于拓展,实验表明对汉语未登录词的语义预测具有重要的价值,可以满足不同层次的应用需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号