首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
为了对汉语谓词进行系统的研究,提出一种融合词法和句法特征、结合C4.5机器学习和规则进行谓词识别的方法.该方法对句子的词法信息和句法信息分别进行特征提取,通过词法特征提取得到句子中可疑谓词及其个数,使用人工总结规则对词法特征进行规则过滤,对符合规则条件的样本直接给出结果,融合不符合规则样本的词法和句法特征,使用C4.5进行分类得到谓词识别结果.实验中,采用谓词总量达到20 000条以上的BFS-CTC标注语料库进行特征和参数选择、句法特征验证、训练数据量选择和算法准确性等一系列的实验,对谓词识别效果的影响进行研究.结果表明:句法特征能有效提升谓词识别效果,随着训练数据量的增加谓词识别准确率趋于平缓,达到了99%的高准确率.  相似文献   

2.
关系分类是自然语言处理中一项重要的基础性任务,目的是识别实体对之间的语义关系.目前的方法主要依赖于句子特征,忽视了句子中实体的信息,而句子中的实体位置信息、实体类型信息以及实体依存信息等多元实体信息有助于识别实体间关系.为充分利用实体信息,提出一种融入多元实体信息关系分类模型BERT-MEI.首先标记实体类型和提取实体...  相似文献   

3.
针对文本匹配过程中存在语义损失和句子对间信息交互不充分的问题,提出基于密集连接网络和多维特征融合的文本匹配方法. 模型的编码端使用BiLSTM网络对句子进行编码,获取句子的上下文语义特征;密集连接网络将最底层的词嵌入特征和最高层的密集模块特征连接,丰富句子的语义特征;基于注意力机制单词级的信息交互,将句子对间的相似性特征、差异性特征和关键性特征进行多维特征融合,使模型捕获更多句子对间的语义关系. 在4个基准数据集上对模型进行评估,与其他强基准模型相比,所提模型的文本匹配准确率显著提升,准确率分别提高0.3%、0.3%、0.6%和1.81%. 在释义识别Quora数据集上的有效性验证实验结果表明,所提方法对句子语义相似度具有精准的匹配效果.  相似文献   

4.
该文提出了一个面向声传感器网络的信息融合新方法.通过对探测到的声信号进行语义分析和自动语义属性标注,把领域知识显性化地描述出来.利用语义描述的潜在分类能力,研究了将领域专家知识引入到信息融合中两种方式.在此基础上结合传统数据融合模型,提出并构造一个将高层次语义概念引入到目标识别中的信息融合新框架.利用声传感器网络采集到...  相似文献   

5.
针对方面级情感分析任务不能充分兼顾句法全面性与语义关联性,且大多数研究中使用的图卷积仅考虑信息自上而下的传播,忽略了信息自下而上的聚合等问题,本文提出了基于注意力与双通道网络的情感分析模型.该模型在扩展依存表示的同时使用自注意力获取具有语义关联的信息矩阵,使用双通道网络结合全局句法与语义关联信息,双通道网络分别侧重于自上而下传播的语义特征与自下而上聚合的结构特征.通道内的图卷积输出会与信息矩阵进行交互注意力起到残差互补的作用,然后通过平均池化完成通道内的任务.最后将基于语义与基于结构的决策融合得到最终的情感分类特征.实验结果表明该模型在三个公开数据集上的准确率与F1值均有提升.  相似文献   

6.
为解决图像自动标注中的语义鸿沟问题,有效选择并利用图像特征,提出基于距离约束稀疏/组稀疏编码(distance constraint sparse/group sparse coding,DCSC/DCGSC)的2种特征选择算法,并分别应用到图像自动标注任务中。考虑到不同特征基相似性对图像语义相似性的贡献不同,定义了度量二者相关性的距离约束正则项。将该正则项分别集成到稀疏/组稀疏编码的特征选择模型中,使选择的特征在保证稀疏性/组稀疏性的同时,优先选择与语义相似性描述最接近的视觉特征基。利用在训练图像集中学习的特征权值,寻找测试图像的K最近邻(K nearest neighbor,KNN)图像,并通过标签转移实现图像标注。在Corel5K图像库上测试标注性能,集成多特征的DCGSC查准率、查全率和标注正确的关键词个数可达32%、34%和151,优于其他相关标注算法。而对于单特征图像,使用DCSC也能改善标注性能。可见,距离约束对特征选择和图像标注是有效的。  相似文献   

7.
为了提高Web图像的检索质量,提出了一种融合文本关键字和图像视觉内容的Web图像检索方法.通过改进的图像自动标注模型,将Web图像本身所蕴含的低层视觉特征映射到图像高层语义特征,即图像文本标注;再将词汇相似性计算技术作为语义信息的度量手段,将图像文本标注转换成带有权重的文本标注;利用贝叶斯推理网检索模型内在的多信息融合能力,将带权重的Web图像文本标注特征和Web文档中的文本信息无缝地融合在一起实现Web图像检索.实验结果表明,将Web中的文本关键字和Web图像视觉内容融合起来可在一定程度上提高Web图像检索质量.  相似文献   

8.
针对微博用语不规范,噪声多,更新快,缩略语多,且数据量大等相关特点,本文提出基于深度学习的方法进行微博命名体的识别。本文首先利用大量的未标注的微博信息对自动编码器训练,获得抽象特征,随后将这些特征作为深度学习网络的输入,最后得出句子中每个字的类标。在进行自动编码器训练的过程中,本文提出卷积方法替代窗口移动方法,以此获取句子中的长依赖信息。通过对新浪微博数据的实验结果表明,本文所给出的深度学习方法能够提高微博中命名体识别的F1值,说明了本文算法的有效性。  相似文献   

9.
针对微博用语不规范、噪声多、更新快、缩略语多,且数据量大等相关特点,提出基于深度学习的方法进行微博命名实体的识别。首先利用大量的未标注的微博信息对自动编码器训练,获得抽象特征,随后将这些特征作为深度学习网络的输入,最后得出句子中每个字的类标。在进行自动编码器训练的过程中,使用卷积方法替代窗口移动方法,以获取句子中的长依赖信息。通过对新浪微博数据的实验结果表明,该深度学习方法能够提高微博中命名实体识别的F1值,说明了本文算法的有效性。  相似文献   

10.
一种基于实例的图像自动语义标注方法   总被引:1,自引:0,他引:1  
在基于内容的图像检索中,图像的标注字能够缩小图像的高级语义和低级视觉内容之间的差距.并方便检索.但手工标注费时费力且结果具有主观不一致性,而图像的自动语义标注能够将图像的视觉特征转化为图像的标注字信息,为用户的使用带来了极大的方便.本文提出了一种基于实例的图像自动语义标注方法.该方法的优点是可以根据以往的标注经验自动确定图像标注信息,克服了手工标注的缺点,也可以方便地扩展为半自动标注,为标注者提供了一个简单方便的标注接口.  相似文献   

11.
Considering the shortcomings of existing research methods in the Chinese medical health questions classification task, this paper proposes a new health questions classification method that incorporates the health questions’ local semantic information and global structural information. We first obtain the questions’ local semantic representation and global structural representation by the convolutional neural network (CNN) and independent recurrent neural network (IndRNN). Then, we extract the questions’ semantic representation, and especially we get the questions’ semantic representation by fusing the local semantic representation and global structural representation using a self-attention mechanism. Finally, we classify the semantic representation of the medical health question through the softmax layer and output classification result. Experimental results show that this method leads to a good performance in the Chinese medical health questions dataset, and that it effectively improves the semantic representation ability of the model and significantly resolves the gradient vanishing and gradient explosion problems.  相似文献   

12.
跨领域文本情感分析时,为了使抽取的共享情感特征能够捕获更多的句子语义信息特征,提出域对抗和BERT(bidirectional encoder representations from transformers)的深度网络模型。利用BERT结构抽取句子语义表示向量,通过卷积神经网络抽取句子的局部特征。通过使用域对抗神经网络使得不同领域抽取的特征表示尽量不可判别,即源领域和目标领域抽取的特征具有更多的相似性;通过在有情感标签的源领域数据集上训练情感分类器,期望该分类器在源领域和目标领域均能达到较好的情感分类效果。在亚马逊产品评论数据集上的试验结果表明,该方法具有良好的性能,能够更好地实现跨领域文本情感分类。  相似文献   

13.
针对答案选择过程中存在语句特征、语句间的相关语义信息提取不充分的问题,在长短时记忆网络(LSTM)的基础上,提出基于LSTM和衰减自注意力的答案选择模型(DALSTM). DALSTM使用LSTM和衰减自注意力编码层提取丰富的上下文语义信息,通过衰减矩阵缓解反复使用注意力机制出现的权重过集中于关键词的问题. 使用注意力机制对问题与答案间的信息进行双向交互,融合问答对间的相似性特征,丰富问答对间的相关语义信息. 在WiKiQA、TrecQA及InsuranceQA数据集上的模型评估结果表明,相较于其他基于BiLSTM的先进模型,DALSTM的整体性能表现更好,3个数据集的平均倒数排名(MRR)分别达到0.757、0.871、0.743.  相似文献   

14.
针对释义识别任务如何学习上下文语义的问题,提出了利用词向量来表示句子语义距离的模型。首先,利用word2vec训练大规模的词向量模型,把词的语义信息利用向量分布式表示;然后通过欧氏距离来计算句子间词的移动开销;最后基于EMD模型实现了从词语义距离到句子语义距离的建模,通过采用句子变换矩阵来实现句子间语义距离的度量,进而从语义相似性方面进行句子释义识别。实验基于SemEval-2015 PIT任务,与作为实验基线的逻辑回归和加权矩阵因数分解方法进行比较,提出的模型采用有监督实验时, 值非常接近实验基线,而采用无监督方法实验时, 值提高了5.8%。  相似文献   

15.
探讨汉英句级对齐软件设计中两项主要技术,即哈希算法与词典语义映射在对齐中的运用。哈希算法能帮助软件从词典大量的英汉词条语义信息中快速提取所需的对应义,结合语义映射,将需要对齐的句子关键词信息进行语义识别,从而有效提高汉英句子对齐效果。  相似文献   

16.
相较于英文开放领域的问答匹配,中文专业医疗领域的问答匹配任务更具有挑战性。针对中文语义和医疗数据的复杂、多样,大多数研究人员都专注于设计繁杂的神经网络来探索更深层次的文本语义,工作思路较为单一,同时神经网络模型很容易因为微小扰动而误判,模型的泛化能力较差。为此,提出了一种基于对抗训练的问答匹配模型,利用双向预训练编码器来捕获问答句的语义信息,从而得到对应的向量表征;再通过在词嵌入表示上添加扰动因子生成对抗样本;最后将初始样本和对抗样本共同输入带有线性层的模型中进行分类预测。在cMedQA V2.0数据集上通过对比实验证明了对抗训练可以有效提升问答匹配模型的性能。  相似文献   

17.
针对中文零代词识别任务,提出了一种基于深度神经网络的中文零代词识别模型. 首先,通过注意力机制利用零代词的上下文来帮助表示缺省的语义信息. 然后,利用Tree-LSTM挖掘零代词上下文的句法结构信息. 最后,利用语义信息和句法结构信息的融合特征识别零代词. 实验结果表明,相对于以往的零代词识别方法,该方法能够有效提升识别效果,在中文OntoNotes5.0数据集上的F1值达到63.7%.  相似文献   

18.
中文文本时间信息获取及语义计算   总被引:2,自引:0,他引:2  
为了解决中文文本中时间信息的形式表达、抽取及时间语义计算等一系列问题,提出了一种可以适用于多种自然语言处理任务的时间信息处理系统,通过对汉语句子时间要素的分析以及时间词语构成形式的研究,采用一种时间表达式的概念,将承载时间信息的短语按照功能的不同分解成若干容易识别,语义单一的“小”的成分,并在此基础上给出基于规则的时间信息抽取、理解及时间语义的计算方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号