首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。  相似文献   

2.
本文在分析了现有切词方法和汉语特点的基础上,提出一各上具有多知识支持的分词方法SSK。SSK方法采用一种分层结构的词典,使每个词在匹配过程中能自动生成 其所有可能的重切,使切词失败时的歧义处理变得十分简单、有效。SSK方法不但得到字、词层次上知识的支持,肯得到语法、语义知识的支持。该方法通过语法、语义检查可及时晚报除一些切分错误,减少了歧义切分,且SSK方法具有简单的词汇学习功能,提高了切词正确率。  相似文献   

3.
维吾尔语词切分方法初探   总被引:11,自引:9,他引:11  
维语词的词干-词附加成分切分、音节切分的规律对维吾尔语自然语言处理方面提供更多方便。本文提出了以“词=词根+附加成分”结构。维语附加成分种类繁多,连接形式各式各样,在句子中起着非常重要的作用,同时有相当的规律性。本文提出了维语中可能出现的基本语音规律的处理方法,如:语音同化、音节切分、语音和谐规律处理。本文对维文词的词法和语音法结构进行了归纳,提出了维语词切分的一些规律和实现方法。以新疆高校学报为语料来测试,对规则词准确率达到95%。  相似文献   

4.
语义解析是指将自然语言句子转化成便于机器理解和推理的意义形式。近年来英文语义解析的研究取得了很大进展。然而,中文语义解析的相关工作则相对较少。中文和英文之间存在一定的差异,适用于英文的语义解析方法不一定适合中文。因此,针对中文的语言特点,提出一种基于词对齐的中文语义解析方法,将中文句子转化成其相应的意义表示看作是一个机器翻译的过程。首先将英文语义解析方法中常用的训练数据集GEOQUERY转化成中文数据集,数据集中每条训练数据包括一个中文句子及其正确的意义表示。然后利用词对齐模型来获取由中文自然语言字符串及其相应的意义表示所组成的双语词典。最后通过学习一个概率估计模型来确定最终的语义解析模型。实验结果表明,WACSP有较高的精确度和覆盖率。  相似文献   

5.
具有确定词表的词组语音识别是语音识别研究的一个重要方面,应用相当广泛。本文在简单介绍词组语音识别之后给出了一个基于连续语音识别算法和词树约束的汉语词组语音识别方法。这种方法通过在束搜索连续语音识别算法中引入词树约束信息,发挥了连续语音识别算法的优点,并且充分利用了确定词表的约束信息,提高了计算和搜索的效率。然后介绍了约束词树和它的高效存储结构,这种结构提高了约束词树的存储效率和在识别搜索中的检索效率;最后给出实验的结果和讨论并进行简要的总结。  相似文献   

6.
传统的话题演化跟踪任务主要使用基于主题模型的方法,但该方法对于文本语义的提取及表征能力较弱.该文在词嵌入方法的基础上结合LDA和注意力增强的孪生BiLSTM网络,提出文本邻近度模型PDRBL来确定话题演化过程中的时态判定.此外,基于PDRBL模型给出了六个话题演化时态及其判定方法,进而提出了话题演化跟踪方法TETP.实...  相似文献   

7.
句子对齐能够为跨语言的自然语言处理任务提供高质量的对齐句子对。受对齐句子对通常包含大量对齐的单词对这种直觉的启发,该文通过探索神经网络框架下词对间的语义相互作用来解决句子对齐问题。特别地,该文提出的词对关联网络通过融合三种相似性度量方法从不同角度来捕获词对之间的语义关系,并进一步融合它们之间的语义关系来确定两个句子是否对齐。在单调和非单调文本上的实验结果表明,该文提出的方法显著提高了句子对齐的性能。  相似文献   

8.
词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词。该文分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词,通过对自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,这说明词向量计算结果与人的语言直觉具有较高的一致性。总体来说,该文所采用的方法有助于提高藏文语义相似词知识库构建效率。  相似文献   

9.
根据现代汉语中指示代词和所指对象的位置关系,指代一般可分为3种类型:前指、后指和外指。针对前指型指示代词的“代名词”形式,分析代词的指代特点,以概念格(本体)为理论基础,建立概念从属树及名词概念的描述,表示概念之间的属性继承关系,进行无语义转换统一体内的代词先行词确定的研究,实现了其中用“就近概念从属匹配”原则确定先行词的部分,体现了代词的语义功能,并在初中几何智能解题系统中得到了成功应用。  相似文献   

10.
自然语言处理中的逻辑词   总被引:4,自引:0,他引:4  
词是自然语言处理中最基本的单位,在当今知识表示领域,知识图作为自然语言理解的语义模型有其独到之处。本文从语言学和逻辑学的角度,首次提出并探讨了逻辑词研究逻辑词分类及如何用知识图表示各类逻辑词的结构。对自然语言处理中研究复句和篇章的理解提供了一种新的途径。  相似文献   

11.
在英语及其它的欧洲语言里,词汇语意关系已有相当充分的研究。例如,欧语词网( EuroWordNet ,Vossen 1998) 就是一个以语意关系来勾勒词汇词义的数据库。也就是说,词汇意义的掌握是透与其它词汇语意的关连来获致的。为了确保数据库建立的品质与一致性,欧语词网计画就每一个处理的语言其词汇间的词义关系是否成立提出相应的语言测试。实际经验显示,利用这些语言测试,人们可以更容易且更一致地辨识是否一对词义之间确实具有某种词义关系。而且,每一个使用数据库的人也可以据以检验其中关系连结的正确性。换句话说,对一个可检验且独立于语言的词汇语意学理论而言,这些测试提供了一个基石。本文中,我们探究为中文词义关系建立中文语言测试的可能性。尝试为一些重要的语意关系提供测试的句式和规则来评估其可行性。这项研究除了建构中文词汇语意学的理论基础,也对Miller的词汇网络架构(WordNet ,Fellbaum 1998) 提供了一个有力的支持,这个架构在词汇表征和语言本体架构研究上开拓了关系为本的进路。  相似文献   

12.
基于元数据的关系数据库语义集成方法   总被引:2,自引:0,他引:2       下载免费PDF全文
提出一种基于元数据的关系数据库语义集成方法,将关系数据库动态转换成具有丰富语义的虚拟资源描述框架(RDF)视图,使关系数据库中的数据成为语义网上可以被机器理解和处理的“智能数据”。介绍语义集成框架并分析关系数据库与领域本体语义映射的原理和方法,提出语义元数据描述模型。分析语义查询分解与转换的方法,描述原型系统的实现与应用情况。  相似文献   

13.
把词素作为基本资源,从语义上寻找他们组合成词的规律,可以辅助自然语言理解。该文首先参照《现代汉语词典》和知网标注了二字词的词素意义,继而从意合结构、意根分布、意指方式、意变类型四个角度标注了词素间的词化意义,最后综合词素意义和词化意义,在定量统计的基础上建立了一个二字词的语义描写体系。通过对论坛及《现代汉语词典》的新词进行实验,我们发现二字词的语义构词研究在普通未登录词的理解中具有一定的应用价值。
  相似文献   

14.
平行周遍原则是陈保亚(1999)提出的一种用于区分词与短语的理论,将词语分为既平行又周遍、平行不周遍和不平行不周遍三类,既平行又周遍的是短语,不宜收入词典。由于汉语语义词典在收词时并未严格遵循平行周遍原则,因此依据现有语义词典可以自动地归纳出许多平行周遍规则或者平行不周遍规则。假定有两部语义词典,则可以归纳出两套平行(不)周遍规则,每一套规则都有各自的正例和反例。一个词典中某一规则的反例如果同时是另一词典中的正例,就意味着前一部词典中的词语可能归类不当。基于这一思路,该文提出一个基于平行周遍原则的语义词典归类不当现象自动发现方法,实验结果证明了这一方法的有效性。  相似文献   

15.
本文提出并实现了基于优先权语义信息冲突处理方法。同时,我们通过一个基于本体信息的大学身份管理原型系统案例来演示本文的方法。本文将从系统的体系结构,优先权处理机制以及语义查询等方面详细分析和实现本文提出的方法。  相似文献   

16.
汉语疑问词具有多义性,至少有三种通用解读: 疑问解读、存在解读(虚指)和全称解读(任指)。该文从汉语疑问词的词义排歧角度出发,通过总结汉语疑问词三种解读所处的句法环境的共同特征,确立其在复杂句法环境中的强势解读,进而构建一个基于规则的汉语疑问词的语义识别模型,为制订词义排歧决策表提供依据。该文以词义最多的疑问词“什么”为例,尝试通过这一思路,来构建基于规则的“什么”的语义识别模型和词义排歧决策表,并通过实验来验证,然后将其改进。  相似文献   

17.
马成龙  颜永红 《自动化学报》2016,42(11):1711-1717
在短文本分类中,面对特征稀疏的短文本,如何充分利用文本中的每一个词语成为关键.本文提出概率语义分布模型的思想,首先通过查询词矢量词典,将文本转换为词矢量数据;其次,在概率语义分布模型的假设下利用混合高斯模型对无标注的文本数据进行通用背景语义模型训练;利用训练数据对通用模型进行自适应得到各个领域的目标领域语义分布模型;最后,在测试过程中,计算短文本属于领域模型的概率,得到最终的分类结果.实验结果表明,本文提出的方法能够从一定程度上利用短文本所提供的信息,有效降低了对训练数据的依赖性,相比于支持向量机(Support vector machine,SVM)和最大熵分类方法性能相对提高了17.7%.  相似文献   

18.
本文提出了一种基于混合本体的集成算法。该方法充分利用了领域知识模型以及局部本体之间存在的语义相关性,从语义匹配的角度探讨了构造新的全局本体的可能。本文还重点讨论了n个局部本体如何构造全局本体的算法;最后介绍了一个本体构造系统,并结合项目给出了具体实例。  相似文献   

19.
词义消歧一直是自然语言处理领域中的关键性问题。为了提高词义消歧的准确率,从目标歧义词汇出发,挖掘左右词单元的语义知识。以贝叶斯模型为基础,结合左右词单元的语义信息,提出了一种新的词义消歧方法。以SemEval-2007:Task#5作为训练语料和测试语料,对词义消歧分类器进行优化,并对优化后的分类器进行测试。实验结果表明:词义消歧的准确率有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号