首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
研究了基于条件随机场的语气词用法自动识别,把语气词用法识别问题看作序列标注任务,将语气词上下文的词语、词性以及词语和词性的复合作为特征建立特征模板来确定语气词的用法。实验数据表明,与规则方法相比,大部分常用语气词的常用用法的识别准确率有了明显的提升,该方法在语气词用法识别任务中具有一定的有效性。  相似文献   

2.
语气词用法的自动识别是现代汉语语气词知识库的核心问题。使用规则方法研究了语气词用法在多种语料库中的识别问题,从多种语料库中的语气词实际用法入手,修改和完善了语气词用法词典和语气词用法规则库。实验数据表明,经过修改和完善,语气词用法在各语料库中的识别准确率有所提高,增强了语气词知识库的适用性。  相似文献   

3.
现代汉语语气词用法的自动识别采用语气词用法词典、语气词用法规则库、语气词用法语料库"三位一体"的方式。由于语料规模较大,真实文本中语气词的用法又各具特点,因此人工书写的规则库主观性较强且难以全面的覆盖各种用法。针对现代汉语10个常用的语气词,研究了基于错误驱动的规则自动改进算法。实验结果表明,这种方法使大部分常用语气词的用法识别准确率有了一定程度的提高。  相似文献   

4.
现代汉语虚词用法繁杂多样,虚词用法的研究对汉语语义理解及语法分析起着非常重要地作用。该文在分析虚词及词汇知识库研究现状的基础上,对三位一体的现代汉语虚词用法知识库中虚词用法词典、虚词用法规则库和虚词用法标注语料库的建设过程进行了详细描述,对虚词知识库现存的问题进行了分析。利用已经构建的现代汉语虚词知识库,对虚词用法自动识别进行了研究,并对现代汉语虚词知识库的应用进行了初步的探讨。  相似文献   

5.
汉语框架语义知识库概述   总被引:1,自引:0,他引:1  
介绍了汉语框架语义知识库(Chinese FrameNet,简称CFN)的语义描述体系。CFN是一个以Fillmore的框架语义学为理论基础、以伯克利FrameNet为参照、以汉语语料事实为依据的供计算机使用的汉语词汇语义知识库,它包括框架库、句子库和词汇库三部分。经过三年的努力,目前已取得了阶段性成果。CFN构建工程量大,难度很高,目前课题组只能在有限目标下开展工作,但是,已经探索了一条可行的技术路径,为实现语义Web中的语义知识共享以及智能化、个性化的Web服务提供了基础资源。  相似文献   

6.
目前已有的助词研究成果很难直接应用于自然语言处理的机器识别。在现代汉语词典、规则库、语料库“三位一体”的助词知识库基础上,采用基于规则的方法进行了现代汉语常用助词用法的自动识别。对比规则优化前后的实验结果证明,对用法的规则进行细化、扩充和调序可以有效地提高助词用法识别的准确率和召回率,减轻人工标注的工作量,提高大规模语料库的质量。  相似文献   

7.
虚词在现代汉语中占有重要地位,虚词与词序一起构成现代汉语的句法手段,对句法分析有重要的影响。依存句法分析是自然语言处理领域研究的热点,为了提高依存关系的识别效果,该文考虑将虚词用法应用到依存关系的识别过程中。通过对虚词用法的研究,以及对依存句法分析各种依存关系识别情况的分析,发现并列关系与虚词中的连词关系密切。作者在并列关系识别过程中加入连词的用法信息,从而提高了并列关系的识别效果。实验结果表明,包含连词的并列关系的LAS及UAS分别提高了3.43%和2.29%。  相似文献   

8.
该文研究了汉语框架自动识别中的歧义消解问题,即对给定句子中的目标词,基于其上下文环境,从现有的框架库中,为该目标词自动标注一个合适的框架。该文将此任务看作分类问题,使用最大熵建模,选用词、词性、基本块、依存句法树上的若干特征,并使用开窗口技术和BOW策略,以目前汉语框架语义知识库中的88个词元的2 077条例句为训练、测试语料,进行了3-fold交叉验证实验,最好结果取得69.28%的精确率(Accuracy)。  相似文献   

9.
作者近年来从事现代汉语虚词知识库研究,并初步构建了包括副词、介词、连词、助词、语气词等的虚词用法词典、用法规则库以及用法语料库的“三位一体”现代汉语虚词知识库。该文在已有工作的基础上,进一步考察副词“就”在1998年1月《人民日报》分词与词性标注语料中的出现规律,通过规则描述、自动标注、人工校对、机器学习等方面的探索,研究副词“就”用法(包括义项)的形式化描述及其自动识别问题,并给出详细的实验结果。  相似文献   

10.
汉语词性标注方法的研究   总被引:4,自引:0,他引:4  
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中,词所表现  相似文献   

11.
现代汉语虚词知识库的研究   总被引:1,自引:0,他引:1  
现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对真实语料中虚词用法规律的考察,着力构建面向机器的现代汉语虚词用法信息词典和虚词用法规则库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。  相似文献   

12.
在自然语言识别过程中,为了提高识别的准确性,我们引入了模式匹配。不仅仅局限于传统的语法-语义分析,而是在语法分析的基础上,结合工程应用来定义最适合自然语言识别的语言模式,然后把模式存入到知识库当中。当需要对自然语言识别时,根据已有模式来匹配句子,从中检索出所需要的信息。文章完整地阐述了这种基于模式匹配的自然语言识别的全过程,并对模式的定义、分析及提取给出了详尽的剖析。最后以一个实验系统证明了此方法的可行性和准确性。  相似文献   

13.
副词以其功能和用法的繁杂多样,引起了众多学者的研究。该文以构建三位一体的副词用法词典、副词用法规则库和副词用法语料库为基础,首先基于规则的方法对副词用法自动识别进行研究,对《人民日报》语料中的副词识别准确率达到了84.86%;然后,基于统计的方法,用不同特征模板、不同上下文窗口以及不同模型等对语料中常用副词进行识别。实验结果表明,基于统计的方法对副词用法自动识别研究有较好的效果。  相似文献   

14.
从现代汉语语义学角度,可将句义类型划分为简单句义、复杂句义、复合句义和多重句义4种。作为在整体上对句义结构进行描述的方式之一,句义类型识别是对汉语句子进行完整句义结构分析的重要步骤。该文基于谓词及句义类型块提出了一种汉语句义类型识别的方法,实现了4种句义类型的识别。该方法先通过句中谓词的个数进行初步识别判断出部分简单句,再对剩余的句子先用C4.5机器学习的方法得到句中谓词经过的最大句义类型块的个数,再结合句法结构中顶端句子节点进行判决,最终给出剩余句子的句义类型判定结果。实验采用BFS-CTC汉语标注语料库中10221个句子进行开集测试,句义类型的整体识别准确率达到97.6%,为基于现代汉语语义学的研究奠定了一定的技术研究基础。  相似文献   

15.
复述(Paraphrase)句的识别可看作文本蕴含(Text Entailment)识别的一个子问题,传统的解决方法是通过词频或句法上的相似度来判断。即使用相同的文字书写的句子其含义也可能差别很大,而相同句法结构也不能保证意义一致。该文根据新闻语料的特点,提出了一种通过引入深层的语义角色标注来帮助识别新闻领域复述句的方法。该方法通过在语义角色这种结构化的含义表达形式中提取的特征来弥补传统方法的不足 先识别待判断的两个句子中所有谓词的语义角色,然后计算两个句子间对应语义角色的相似度,最后结合传统的句子相似度计算方法来进行相似性计算。实验证明,该文提出的方法能有效地提高复述语句的识别效果。  相似文献   

16.
词向量在自然语言处理中起着重要的作用,近年来受到越来越多研究者的关注。然而,传统词向量学习方法往往依赖于大量未经标注的文本语料库,却忽略了单词的语义信息如单词间的语义关系。为了充分利用已有领域知识库(包含丰富的词语义信息),文中提出一种融合语义信息的词向量学习方法(KbEMF),该方法在矩阵分解学习词向量的模型上加入领域知识约束项,使得拥有强语义关系的词对获得的词向量相对近似。在实际数据上进行的单词类比推理任务和单词相似度量任务结果表明,KbEMF比已有模型具有明显的性能提升。  相似文献   

17.
无人驾驶汽车的测试技术主要是通过虚拟测试和场地测试的方法来检测无人驾驶汽车的智能化水平,通过不断的学习和总结经验来提高无人驾驶的安全性,这种方法耗费大量的人力物力以及时间。为此,从文本的角度出发,利用驾驶行为相关文本,通过NLP技术和基于规则的方法构建一个无人驾驶规则库,依据这个规则库来辅助测试无人驾驶汽车能否满足道路安全要求。实验结果表明,对《中华人民共和国道路交通安全法实施条例》处理后规则提取的正确率为89.85%,驾考题库文本的正确率为87.33%。  相似文献   

18.
自动提取含字母词语的领域新术语的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
新术语的提取是中文信息处理领域的一个重要研究课题。针对现有提取方法的不足和很多专业术语表现为字母词语的特点,该文提出了一种综合统计技术和规则筛选的方法:基于长串优先和串频统计的思路进行文本切分,得到共现字符串,利用词语搭配规则进行过滤,经过领域词典及评价函数的筛选,提取出领域新术语。该方法可发现包含字母词语、专业术语等未登录词在内的频率大于等于2的任意长度的专指语义串、短语和词。实验表明了该方法的有效性及新术语的准确率分布特征。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号