首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
汉语是一种语序灵活的语言,句子变式很多,基于传统依存树的投射现象还不能很好解决某些句式的语义理解问题。文章以10000个句子的汉语语义依存图库为基础,验证并明确了汉语非投射现象的客观存在性,考察了汉语句子中存在的非投射现象,并从语言学和句子深层语义理解的角度对非投射现象进行了归纳和解释。文章总结了7类出现非投射现象的情况,包括小句宾语句、比较句、主谓谓语句、紧缩复句、代词、动补谓语句以及注释短语或复句。这对于自动语义依存标注有重要的指导作用。  相似文献   

2.
中文电子病历中的时间关系包括句内时间关系和句间时间关系,其中,句内时间关系包括句内事件-事件的时间关系和句内事件-时间的时间关系,句间时间关系即是句间事件-事件的时间关系。把中文电子病历文本中的时间关系识别转化成实体对分类问题,针对句内时间关系的识别,制定了高准确率的启发式规则,并设计了基本特征、短语句法特征、依存特征和其他特征,训练分类器缓解句内时间关系的识别错误;针对句间时间关系的识别,在高准确率的启发式规则之外,设计了基本特征、短语句法特征和其他特征,训练分类器减少句间时间关系的识别错误。实验结果表明,当分别使用支持向量机(SVM)、SVM和随机森林(RF)算法时,所提方法在句内事件-事件、句内事件-时间和句间事件-事件的时间关系识别上的效果最好,其F1值分别达到了84.0%、85.6%和63.5%。  相似文献   

3.
从「悬、挂、吊」看现代汉语近义词的区辨   总被引:2,自引:0,他引:2  
本文以中央研究院词库小组所完成的「研究院语料库(Sinica Corpus)」为语料,分析「悬」、「挂」、「吊」这一组近义词。藉由观察这三个词个别的出现分布与句法表现,抽离出区隔这三个动词的关键语意成分。 我们发现事件焦点(event focus)在这一组动词的区分上扮演着重要的角色。分析显示,这三个动词的语意都可以表现在使动结构(causative construction)上,而三者的区分就在于它们各自表示这个结构不同的组成成分。「悬」倾向于以使动句构中的下位事象(subevent)为焦点,「挂」则可涵盖整个使动结构,而「吊」则偏向于将焦点集中在使动句构中的上位事象(superevent)的部分。 由这一组近义动词的表现,证明在事件结构的分析上,「事件焦点」这个概念,在区分动词语意时,有一定的重要性。  相似文献   

4.
关键短语生成是一个能从长文档或者文献中捕获中心思想的实用任务。先前的神经关键短语生成方法基本只注重词级别的信息而忽略文档结构。该文提出了一个句级选择网络(sentence selective network,SenSeNet)用于关键短语生成。该模型重点关注文档的句子结构信息,通过学习句子隐式表示来判断其是否有可能生成关键短语,然后根据判断结果引入对应归纳偏置来辅助解码器生成关键短语。该文使用直通估计量(straight-through estimator)来端到端地训练模型。为了提高句级选择网络性能,该文还提出了一个任务强相关的弱监督信息。实验表明,模型成功地捕获了文档信息,并合理选择了相对较重要的句子,而且模型也更倾向于从这些重要句子中生成关键短语。该文将模型引入到绝大多数序列到序列模型中,在五个数据集中的两个评价指标下,均有显著的性能提升。  相似文献   

5.
专利文献的自动翻译是机器翻译的一个重要应用领域,复杂长句的翻译是汉英机器翻译的难点。本研究期望找出汉英复杂长句中小句变换的形式化转换规则。汉语复杂长句中会包含多个小句,这些小句都是独立存在的,但翻译成英语时,一般只有一个核一心小句,其他小句都变换成doing、todo、从句或短语等其它形式。文中以1300句汉英双语专利文献语料为研究对象,对汉语中的小句翻译为英语的变换情况进行分类研究,从小句句间关系、共享关系的角度出发,描述激活特征,并按五种变换方式分类,提出了十二条变换规则,小规模语料实验结果证明规则可行有效。下一步工作需要扩充研究语料,对语料进行更深入的挖掘和分析,在更大规模语料中验证规则的实用性。  相似文献   

6.
在文语转换系统中,从文本中预测出准确的韵律结构对于提高合成语音的自然度具有重要的作用。利用10 000句标注了词性标记的文本语料,在语言学专家的指导下,人工标注了语料的韵律词和韵律短语。选择了标注结果一致性最高的500句语句,标注了语法层级结构,并利用语法树高度描述语法词之间连接的紧密程度。通过分析韵律短语边界与语法结构的关系,发现韵律短语边界受语法树高度、语法词词性和语法词词长的影响,因此选择了这三个特征,利用TBL算法和400句训练语句训练了预测模型。测试集上的预测结果表明,提出的方法在小规模训练语料下,韵律短语预测的精确率达到了75.2%,召回率达到了77.1%,F-Score达到了76.1%。  相似文献   

7.
连词能够连接词语、短语、小句、句子乃至句群,连词结构短语是连词所连接对象的一种,不同的连词形成不同长度、不同关系的连词结构短语。该文根据虚词用法知识库中的连词用法,构建了连词结构短语识别规则,实现了基于规则的连词结构短语识别,并将连词用法作为特征采用条件随机场模型实现了基于统计的连词结构短语识别。实验结果表明,统计的识别效果高于规则的识别效果,连词用法能够较好地用于连词结构短语的识别中。  相似文献   

8.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。  相似文献   

9.
该文从短语结构和句式结构的区别与联系入手,设计了一种将短语结构自动转换为句式结构的算法。并以清华短语结构树库(TCT)为测试语料,实现了将大规模短语结构语料向句式结构语料的转换。最后,搭建了一套可扩展的可视化系统,用于不同句法结构语料的可视化查看。这一研究不仅实现了两种结构之间的初步转换,而且极大地丰富了汉语句本位图解树库的语料规模,并为汉语句本位图解树库的后续应用研究奠定了基础。  相似文献   

10.
现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。  相似文献   

11.
卢露  矫红岩  李梦  荀恩东 《自动化学报》2022,48(12):2911-2921
为快速构建一个大规模、多领域的高质树库,提出一种基于短语功能与句法角色组块的、便于标注多层次结构的标注体系,在篇章中综合利用标点、句法结构、表述功能作为句边界判断标准,确立合理的句边界与层次;在句子中以组块的句法功能为主,参考篇章功能、人际功能,以4个性质标记、8个功能标记、4个句标记来描写句中3类5种组块,标注基本句型骨架,突出中心词信息.目前已初步构建有质量保证的千万汉字规模的浅层结构分析树,包含60余万小句的9千余条句型结构库,语料涉及百科、新闻、专利等应用领域文本1万余篇;同时,也探索了高效的标注众包管理模式.  相似文献   

12.
复杂网络安全事件的知识表示和关联分析方法   总被引:1,自引:0,他引:1  
针对复杂网络安全事件信息的模糊性和不确定性的推理问题,提出采用一种加权模糊Petri网的安全事件知识表示和关联分析的方法.将Petri网和加权模糊产生式方法结合起来,通过引入网络安全事件征兆权值的概念,用权值大小来描述多个安全事件征兆对安全事件发生的贡献程度.在一定程度上有效地解决网络安全事件之间的复杂因果关系推理及不确定知识的表示问题.  相似文献   

13.
缪峰  王萍  李太勇 《计算机科学》2022,49(3):276-280
抽取事件之间的因果关系能够应用于自动问答、知识提取、常识推理等方面.隐式因果关系由于缺乏明显的词汇特征和中文复杂的句法结构,使得其抽取极为困难,已成为当前研究的难点.相比而言,显示因果关系的抽取比较容易、准确率高,且因果关系事件之间的逻辑关系稳定.为此,文中提出了一种原创的方法,首先通过对抽取的显示因果事件对进行事件动...  相似文献   

14.
以往的介词知识库构建重视介词语义和介宾的搭配研究,鲜有对介动搭配进行系统研究及知识获取的工作。而汉语介词发达及动词是句子中心的特征决定了介动搭配研究的重要性。该文基于结构检索技术,充分借助短语结构属性和结构信息,从大规模语料中抽取介动搭配16 033对,并提出了介动搭配紧密度的度量方法,初步分析证明该方法远优于依靠绝对频次进行搭配度量的方法。  相似文献   

15.
江荻 《中文信息学报》2007,21(4):111-115
本文讨论藏语述说动词管控的句子性小句宾语。藏语述说动词包括“说”类动词、认知动词、思考动词、询问动词及其他语义相关的动词。从小句自身结构看,可以是完整的句子,带主语、谓语以及句末动词体貌标记和语气词,也可能只是单一的谓语动词。小句宾语自身具有谓词性,通常通过添加名词化标记使之名词化。小句宾语的标记来自古代述说类动词的类典型zer 的语法化,而在现代藏语中作为小句标记语音和书写形式上都有多个变体。小句宾语内部也有复杂的关系和层次,类似于英语的直接引语与间接引语。小句缺省主语的情况下,动作发出者可通过表示体貌、情态的语法词以及上下文来确定。小句的句类包括陈述、疑问、祈使和感叹,可带不同的句类语气词。最后应该指出,有一部分述说动词小句宾语经常不带名词化标记,这种现象会给句法处理算法带来一定的麻烦,相关原因和解决办法还须进一步研究。  相似文献   

16.
搞翻译为什么要"拆句"?这个问题我们在上一讲已经回答了。我们还举出了几个例子,说明拆句的基本原则。在这一讲里,我们将继续举一些实例,通过对这些实例的解说和分析,帮助读者们逐渐熟练地掌握拆句的技巧。(例句编号接续上期)。 (例四)In addition, the system voltmeter was programmed to measure loop resistance when attached to the test thermocouples.谁也不会认为这个句子在理解上有什么困难;句子中没有生僻的单词和短词,也没有使用复杂的语法修辞手段。但是,当你提起笔来把它翻译成汉语的时候,就会发现问题并不简单。这一句的翻译的难点,在于有几个地方不好处理:首先是"was programmed",用的是被动语态(我们以前已经说过,英语被动语态的使用比汉语多);其次是不定式短语"to measure loop  相似文献   

17.
句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整的汉语篇章级小句关系标注体系。将汉语话题和逻辑关系置于同一个框架下进行描述,将小句关系划分为事件附属关系和事件逻辑关系两大类。逻辑关系又包括6个中类、15个小类。目前已在人民日报语料上完成了8000个句子的小句关系标注。抽取出其中1000个句子检测了双盲标注的一致性,揭示了汉语意合性语言小句关系标注的困难;并基于标注数据对关系类型进行了定量分析,指示了汉语句际关系自动分析将面临的重点和难点。  相似文献   

18.
现有汉越跨语言新闻事件检索方法较少使用新闻领域内的事件实体知识,在候选文档中存在多个事件的情况下,与查询句无关的事件会干扰查询句与候选文档间的匹配精度,影响检索性能。提出一种融入事件实体知识的汉越跨语言新闻事件检索模型。通过查询翻译方法将汉语事件查询句翻译为越南语事件查询句,把跨语言新闻事件检索问题转化为单语新闻事件检索问题。考虑到查询句中只有单个事件,候选文档中多个事件共存会影响查询句和文档的精准匹配,利用事件触发词划分候选文档事件范围,减小文档中与查询无关事件的干扰。在此基础上,利用知识图谱和事件触发词得到事件实体丰富的知识表示,通过查询句与文档事件范围间的交互,提取到事件实体知识表示与词以及事件实体知识表示之间的排序特征。在汉越双语新闻数据集上的实验结果表明,与BM25、Conv-KNRM、ATER等基线模型相比,该模型能够取得较好的跨语言新闻事件检索效果,NDCG和MAP指标最高可提升0.712 2和0.587 2。  相似文献   

19.
法律文本中有一种表条件“的”字结构,该文对其英译进行语法标注与统计分析。考察《民法通则》的汉英平行文本,确定“的”字结构的英语对应单位。统计“的”字结构的英语对应单位,发现: 1.状语远多于定语(85.40%>14.60%);2.限定式远多于非限定式(87.59%>12.41%),限定式中一般现在时占绝对多数(99.17%),非限定式以介词短语为多(64.71%);3.状语引导词以if 为多(86.32%),定语引导词以who为多(60.00%)。研究认为,法律文本中此类“的”字结构是句而非短语,而其中的“的”是表条件的篇章连接词。  相似文献   

20.
王亦雄  廖湖声  孔祥翾  高红雨  苏航 《计算机科学》2017,44(4):140-143, 164
复杂事件处理是支持大数据处理的流式计算平台的核心技术之一。CEStream语言作为一种新型的事件流处理语言,支持分布式环境下的复杂事件处理。该语言以XML等层次化数据为数据模型,为复杂事件检测提供了一种正规树模式匹配功能,并且支持结构连接和正规式匹配。同时,针对分布式的多个事件流,其能够将各个事件源模式匹配的结果按照时间顺序再一次进行正规式模式匹配,满足多源组合型复杂事件的检测需求,具有较强的事件处理能力。为了实现CEStream语言,研制了一个基于流数据处理集群和远端查询代理的执行引擎系统。该系统通过远程查询代理实现基于正规树模式的事件检测,通过流处理集群完成多源组合型复杂事件处理。实验表明,该系统实现了CEStream语言,有效地限制了各个节点之间的通信量,充分利用了集群的计算能力,整体性能能够满足应用需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号