共查询到19条相似文献,搜索用时 203 毫秒
1.
复句是汉语语法的重要实体单位,关系词的自动识别是复句标识的基础,对复句的标识以及篇章的研究有重要意义。在对汉语复句语料库进行广泛分析的基础上,从复句关系词所在的环境和关系词的组合搭配方面进行特征的提取,对提取的特征进行形式化描述。采用互信息和信息增益相结合的方式进行特征选择以及冗余特征的消除;使用贝叶斯模型对特征集合进行训练和测试;将基于统计过程的结果转化为规则,形成规则库,并根据规则进行关系词自动识别。实验结果显示,本方法获得了较高的识别正确率,具有可行性和有效性。 相似文献
2.
3.
汉语复句关系词是汉语复句在语表形式上的标记,是复句中标识关系的重要构件,在现代汉语复句研究领域起着关键作用。汉语复句关系词的搭配是指在汉语语篇中两个或两个以上的复句关系词形成的句法共现形式,它不仅影响着分句的语义,而且影响着复句层次关系的划分。该文利用复杂网络的理论,基于已获取的470个复句关系词构建了一个“现代汉语复句关系词搭配网络”。通过对该网络中的平均路径长度、聚集系数和度分布等特征的统计,用来发现汉语复句关系词之间的搭配能力和搭配强度,这些结果能够帮助复句层次关系和复句逻辑语义的自动识别。 相似文献
4.
5.
6.
复句关系词自动识别是复句层次识别以及对复句语义理解的基础.目前,汉语关系词的自动识别主要根据字面特征与句法特征,未涉及到语义特征的分析.论文利用哈工大的LTP平台,分析句子的语义依存关系,提取语义特征,建立语义依存特征库,运用随机森林方法自动识别复句关系词.复句关系词识别正确率92.32%,F1值为92.31%.实验结果表明了该方法的有效性. 相似文献
7.
复句中的关系词对研究复句中各分句的语义关系有着重要意义,在基于规则的关系词自动识别中需要大量的规则,并且规则库是动态变化和不断完善的,向规则库中入库规则时会出现规则冲突和入库错误的情况,该文探讨如何在入库时识别产生冲突的规则,并对规则进行相关的处理。对复句的普通规则、连用词规则、普通句式规则、连用句式规则四类规则进行了形式化的表示与存储,在此基础上设计了关系词检测、约束类型检测、约束条件检测、结论检测的检测流程。提出了两种冲突处理方式——优先级方式和有向无环图方式,对两种方法进行了比较。利用该检测方法和有向无环图的处理方式,入库了千余条规则。实验表明,利用该方法冲突规则的检测和处理正确率达到100%。 相似文献
8.
汉语文章中复句占多数, 复句关系类别的识别是对复句分句之间的语义关系的甄别, 是分析复句语义的关键. 在关系词非充盈态复句中, 部分关系词缺省, 因此, 不能通过关系词搭配的规则来对非充盈态复句进行类别识别, 且通过人工分析分句的特征进行类别识别费时费力. 本文以二句式非充盈态复句为研究对象, 采用在卷积神经网络中融合关系词特征的FCNN模型, 尽可能减少对语言学知识和语言规则的依赖, 通过学习自动分析两个分句之间语法语义等特征, 从而识别出复句的关系类别. 使用本文提出的方法对复句关系类别识别准确率达97%, 实验结果证明了该方法的有效性. 相似文献
9.
汉语复句的语义关系丰富而复杂,复句关系自动识别是对复句语义关系的判别,是分析复句所表达意义的重要环节.因果类复句是使用最多的汉语复句,文中以二句式有标因果类复句为研究对象,通过深度学习的方法自动挖掘复句隐含的特征,同时融合了关系词这一语言学研究的显著知识.将word2vec词向量与one-hot编码的关系词特征结合作为模型的输入,利用卷积神经网络作为前馈层的transformer模型来对因果复句关系进行识别.采用文中的方法对因果类复句关系类别进行识别,实验结果的F1值达到92.13%,优于现有的对比模型,表明了该方法的有效性. 相似文献
10.
11.
12.
在自然语言处理,尤其是在基于语法和语义规则的信息检索、机器翻译系统中,对于句群的处理显得格外重要。它是计算机从理解孤立的词义和句义上升到理解篇章整体中心内容的一个重要的跃变步骤。作为句群理解的关键一步,句群的识别显得尤为重要。该文从句群本身的构成特点出发,对句群进行了内部语义组合方式的划分,这一划分适宜计算机进行处理。根据已经取得的“HNC语言概念空间表示”的研究成果,制定了识别具有以上构成特点句群的相关规则。实验表明,划分方法具有很高的句群覆盖率,同时切分规则具有很高的准确度。 相似文献
13.
14.
15.
16.
王立霞 《计算机技术与发展》2012,(11):77-80,84
专利文献的自动翻译是机器翻译的一个重要应用领域,复杂长句的翻译是汉英机器翻译的难点。本研究期望找出汉英复杂长句中小句变换的形式化转换规则。汉语复杂长句中会包含多个小句,这些小句都是独立存在的,但翻译成英语时,一般只有一个核一心小句,其他小句都变换成doing、todo、从句或短语等其它形式。文中以1300句汉英双语专利文献语料为研究对象,对汉语中的小句翻译为英语的变换情况进行分类研究,从小句句间关系、共享关系的角度出发,描述激活特征,并按五种变换方式分类,提出了十二条变换规则,小规模语料实验结果证明规则可行有效。下一步工作需要扩充研究语料,对语料进行更深入的挖掘和分析,在更大规模语料中验证规则的实用性。 相似文献
17.
汉语复句层次关系分析是中文信息处理领域极具挑战性的课题之一。为解决关系词标识信息不充足所导致的复句层次关系识别准确率下降问题,挖掘了影响分句关联的形式化语义知识,在此基础上构建了小句关联体识别算法并将其应用于相应的复句层次判定规则之中,以辅助分析其层次关系;对于其余单、多重有标复句的层次识别,使用基于搭配规则的移进-归约算法;最后提出了一种语义与规则相结合的复句层次分析模型。实验结果表明,此方法在一定程度上提高了复句层次关系识别的准确率。 相似文献
18.
复句关系类别的识别是对复句分句之间语义关系的甄别,是分析复句语义关系的关键。在现代汉语复句中,二句式和三句式复句占绝大多数,而三句式复句又可以拆分为二句式复句,所以多句式复句的研究归结起来就是二句式复句的研究。因此,本文以二句式非充盈态有标复句为研究对象,结合汉语复句的句法理论、关系标记搭配理论,以汉语复句语料库以及搜索引擎获取的复句为语料,进行二句式非充盈态有标复句关系类别的自动标识。使用本文提出的方法对二句式非充盈态有标复句关系类别进行自动识别,准确率达89%,实验结果证明了本文方法的有效性。 相似文献
19.
维吾尔语新闻网页与对应的中文翻译网页在内容上往往并非完全可比,主要表现为双语句子序列的错位甚至部分句子缺失,这给维汉句子对齐造成了困难。此外,作为新闻要素的人名地名很多是未登录词,这进一步增加了维汉句子对齐的难度。为了提高维汉词汇的匹配概率,作者自动提取中文人名、地名并翻译为维吾尔译名,构造双语名称映射表并加入维汉双语词典。然后用维文句中词典词对应的中文译词在中文句中进行串匹配,以避免中文分词错误,累计所有匹配词对得到双语句对的词汇互译率。最后融合数字、标点、长度特征计算双语句对的相似度。在所有双语句子相似度构成的矩阵上,使用图匹配算法寻找维汉平行句对,在900个句对上最高达到95.67%的维汉对齐准确率。 相似文献