共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
本文提出了一种基于词和词义混合的统计语言模型,研究了这个模型在词义标注和汉语普通话语音识别中的性能,并且与传统的词义模型和基于词的语言模型进行了对比。这个模型比传统词义模型更准确地描述了词义和词的关系,在词义标注中具有较小的混淆度;在汉语普通话连续音识别中,这个词义模型的性能优于基于词的三元文法模型,并且需要较小的存储空间。 相似文献
3.
杨泉 《计算技术与自动化》2021,40(4):36-41
设计了一种基于决策树算法的N1+N2结构语法关系判定方法.首先建立了该结构的语料库,对每条语料都标注构建特征集所需的词性、《同义词词林》语义编码、语法关系和词义相似度等信息;然后为证明相似度在判断语法关系中的合理性,根据语言学原理研究了N1+N2结构两个名词间语义相似度与语法关系之间的内在规律:①从语法关系的角度比较两个名词间的语义相似度结果为:并列关系>复指关系>定中关系>主谓关系;②从语言功能焦点的角度比较两个名词间的语义相似度结果为:并焦型短语>后焦型短语.最后以此为基础构建了特征集,运用决策树C4.5算法建立了自动判定N1+N2结构语法关系的方法.运用该算法在自建语料库的测试集中进行测试,正确率为89.39%. 相似文献
4.
5.
6.
中文电子病历中的时间关系包括句内时间关系和句间时间关系,其中,句内时间关系包括句内事件-事件的时间关系和句内事件-时间的时间关系,句间时间关系即是句间事件-事件的时间关系。把中文电子病历文本中的时间关系识别转化成实体对分类问题,针对句内时间关系的识别,制定了高准确率的启发式规则,并设计了基本特征、短语句法特征、依存特征和其他特征,训练分类器缓解句内时间关系的识别错误;针对句间时间关系的识别,在高准确率的启发式规则之外,设计了基本特征、短语句法特征和其他特征,训练分类器减少句间时间关系的识别错误。实验结果表明,当分别使用支持向量机(SVM)、SVM和随机森林(RF)算法时,所提方法在句内事件-事件、句内事件-时间和句间事件-事件的时间关系识别上的效果最好,其F1值分别达到了84.0%、85.6%和63.5%。 相似文献
7.
提出了一种基于词义相似度和最近邻算法的"N1+N2"结构短语语法关系判定方法.首先从"N1+N2"结构中两对名词间的语义相似度定义了短语结构间的相似度,在此基础上给出最近邻分类算法所需要的短语结构间距离的概念;然后建设了一个标注了词语语义类别和短语语法关系的"N1+N2"结构的样本语料库,建立了一种能够标注"N1+N2"结构关系的最近邻分类算法;最后用测试集中计算机标注结果与人工标注结果比较来测试算法效果.实验结果显示,基于论文所提算法的计算机自动标注结果正确率达到97.55%,该结果证明了论文设计算法的有效性. 相似文献
8.
9.
基于双向语义的中文实体关系联合抽取方法 总被引:1,自引:0,他引:1
现有中文实体关系抽取方法通常利用实体间的单向关系语义特征进行关系抽取,然而仅靠单向语义特征并不能完全利用实体间的语义关系,从而使得实体关系抽取的有效性受到影响。提出一种基于双向语义的中文实体关系联合抽取方法。利用RoBERTa预训练模型获取具有上下文信息的文本字向量表征,通过首尾指针标注识别句子中可能存在关系的实体。为了同时利用文本中的双向关系语义信息,将实体分别作为关系中的主体与客体来建立正负关系,并利用两组全连接神经网络构建正负关系映射器,从而对每一个输入实体同时从正关系与负关系的角度构建候选关系三元组。将候选关系三元组分别在正负关系下的概率分布序列与实体位置嵌入特征相结合,以对候选三元组进行判别,从而确定最终的关系三元组。在DuIE数据集上进行对比实验,结果表明,该方法的精确率与召回率优于MultiR、CoType等基线模型,其F1值达到0.805,相较基线模型平均提高了12.8%。 相似文献
10.
罗俊丽 《数字社区&智能家居》2013,(7):1548-1550
针对传统的词义消歧方法不能对短小的用户查询词进行词义消歧,提出了一种基于语义关系图的词义消歧方法,利用改进的PageRank算法计算语义关系图中的各词义节点权重,选择权重较大的词义作为消歧后的查询词词义。实验结果验证了该方法的有效性。 相似文献
11.
基于大规模语料库的汉语词义相似度计算方法 总被引:1,自引:0,他引:1
词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。 相似文献
12.
语义角色除了受句法结构限制之外,同词汇的语义特征也有着紧密的内在联系。对于一些仅依靠句法分析不能很好解决的角色标注问题,如句法结构相同的两个成分所对应的角色分别为完全不同的施事、受事角色的情况,可以通过引入一些词汇语义特征来进行处理。该文基于北京大学的语义词典CSD,引入了配价数、主客体语义类等词汇语义特征来进行语义角色标注研究。10折交叉验证的结果显示,通过引用词汇语义特征,所有角色标注的总体评价F值比单纯使用句法特征上升了1.11%,而其中Arg0和Arg1角色标注的F值达到93.85%和90.60%,比仅使用句法特征进行角色标注分别提高了1.10%和1.26%。 相似文献
13.
14.
Uta Priss 《Computational Intelligence》1999,15(1):79-87
In this paper we develop a formalization of semantic relations that facilitates efficient implementations of relations in lexical databases or knowledge representation systems using bases. The formalization of relations is based on a modeling of hierarchical relations in Formal Concept Analysis. Further, relations are analyzed according to Relational Concept Analysis, which allows a representation of semantic relations consisting of relational components and quantificational tags. This representation utilizes mathematical properties of semantic relations. The quantificational tags imply inheritance rules among semantic relations that can be used to check the consistency of relations and to reduce the redundancy in implementations by storing only the basis elements of semantic relations. The research presented in this paper is an example of an application of Relational Concept Analysis to lexical databases and knowledge representation systems (cf. Priss 1996) which is part of a larger framework of research on natural language analysis and formalization. 相似文献
15.
语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相关度的计算转化为相应的概念向量的比较。进一步,引入页面的先验概率,利用维基百科页面之间的链接信息对概念向量各分量的值进行修正。实验结果表明,使用该方法计算汉语语义相关度,与人工标注标准的斯皮尔曼等级相关系数可以达到0.52,显著改善了相关度计算的结果。 相似文献
16.
This paper describes the evaluation of a WSD method withinSENSEVAL. This method is based on Semantic Classification Trees (SCTs)and short context dependencies between nouns and verbs. The trainingprocedure creates a binary tree for each word to be disambiguated. SCTsare easy to implement and yield some promising results. The integrationof linguistic knowledge could lead to substantial improvement. 相似文献
17.
语义Web服务是应用语义Web技术对Web服务的扩展.使信息具有语义就是用计算机内的Ontology中的概念作标记符对信息进行标记,对该过程予以支持的就是语义Web技术,即Ontology的构建技术、Ontology的使用技术(语义推理技术)和信息的语义标记技术.语义Web技术对Web服务的扩展可具体化为两项任务:服务提供者、服务请求者和服务注册处三类服务主体均内置Ontology;发布、查找和绑定三种交互信息均采用语义标记. 相似文献
18.
19.
基于合一句法和实体语义树的中文语义关系抽取 总被引:1,自引:0,他引:1
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。 相似文献
20.
词语向量表达(word vector representation)是众多自然语言处理(natural language processing,NLP)下游应用的基础。已有研究采用各种词汇分类体系提供的词汇语义约束,对海量语料训练得到的词向量进行修正,改善了词向量的语义表达能力。然而,人工编制或者半自动构建的词汇分类体系普遍存在语义约束可靠性不稳定的问题。该文基于词汇分类体系与词向量之间、以及异构词汇分类体系之间的交互确认,研究适用于词语向量表达修正的可靠词汇语义约束提炼方法。具体上,对于词汇分类体系提供的同义词语类,基于词语向量计算和评估类内词语的可靠性。在其基础上,通过剔除不可靠语义约束机制避免词语类划分潜在不够准确的词语的错误修正;通过不同词汇分类体系的交互确认恢复了部分误剔除的语义约束;并通过核心词约束传递机制避免原始词向量不够可靠的词语在词向量修正中的不良影响。该文采用NLPCC-ICCPOL 2016词语相似度测评比赛中的PKU 500数据集进行测评。在该数据集上,将该文提出的方法提炼的可靠词汇语义约束应用到两个轻量级后修正的研究进展方法,修正后的词向量都获得更好的词语相似度计算性能,取得了0.649 7的Spearman等级相关系数,比NLPCC-ICCPOL 2016词语相似度测评比赛第一名的方法的结果提高25.4%。 相似文献