首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
文本矛盾是自然语言理解的一项基础性问题。目前的研究大多针对矛盾识别任务,而深入文本内部探究矛盾产生原因的工作较少,且缺乏专门的中文矛盾数据集。该文在前人矛盾研究基础上,提出矛盾语块的概念,将其划分为7种类型,并根据标注规范构建了包含16 224条数据的中文矛盾语块(CCB)数据集。基于此数据集,利用序列标注及抽取式阅读理解类模型开展矛盾语块边界识别实验,以检验模型对矛盾内部语义信息的理解能力,结果显示阅读理解类模型在该任务上的性能优于序列标注模型。该文通过三个角度对影响语块边界识别的因素进行分析,为文本矛盾后续研究工作提供可靠的数据集和基线模型。  相似文献   

2.
利用浅层句法分析提取特征的词义消歧   总被引:1,自引:0,他引:1  
针对如何从文本中提取高质量消歧特征的问题,提出了基于浅层句法分析的消歧特征提取算法,建立了以语块分析识别为核心的特征提取模型.该模型通过对实词类型语块识别、分析中心词语词性和虚词类型语块分析,得到多义词的消歧特征.以北京大学计算语言研究所的现代汉语基本标注语料库为基础,选取了44个多义词,通过使用最大熵消歧模型进行训练和预测实验,准确率达到了78.71%.  相似文献   

3.
文本蕴含是自然语言处理的难点,其形式、类型复杂,知识难以概括。早期多利用词汇蕴含和逻辑推理知识识别蕴含,但该方法反对特定类型的蕴含有效。近年来,利用大规模数据训练深度学习模型的方法在句级蕴含关系识别任务上取得优异性能,但模型不可解释,尤其是无法标定引起蕴含的具体语言片段。该文研究文本蕴含成因形式,归纳为词汇、句法异构、常识和社会经验三类,并以句法异构蕴含为研究对象。针对上述两个问题,提出句法异构蕴含语块的概念,定义其边界识别任务。该文制定句法异构蕴含语块标注规范,建立标注数据集。在此基础上,分别建立基于规则和基于深度学习的模型,探索句法异构蕴含语块的自动识别方法。实验结果表明,该文提出的深度学习模型能有效发现蕴含语块,为下一步的研究提供可靠的基线方法。  相似文献   

4.
该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法。首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的语料上,利用CRFs算法生成相应模型对韵律短语进行识别。实验结果表明,基于语块信息的CRFs韵律短语识别模型的识别效果优于不利用语块结构的模型,其F值平均能够提高约十个百分点。  相似文献   

5.
提出一种基于汉语语块结构并利用AdaBoost-SVM集成学习算法的汉语韵律短语识别方法。首先,对语料进行自动分词、词性标注和初语块标注,然后基于结合紧密度获取语块归并规则并利用规则对初语块进行归并,得到最终的语块结构。其次,基于语块结构并利用AdaBoost-SVM集成算法,构建汉语韵律短语识别模型。同时,该文利用多种算法分别构建了利用语块信息和不利用语块的多个模型,对比实验结果表明,表示浅层句法信息的语块能够在韵律短语识别中做出积极有效的贡献;利用AdaBoos-SVM集成算法实现的模型性能更佳。  相似文献   

6.
文本语块识别在自然语言处理领域具有重要作用。以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采用"词性"特征来识别多种语块,那些对于"词"敏感的短语准确率将会很低。因此针对不同的语块采用不同的特征和策略,不同短语的识别相互借鉴,把不同语块的识别集成在一起,将会起到很好的效果。  相似文献   

7.
文本语块识别典型方法的比较与分析   总被引:1,自引:1,他引:1  
文本语块识别在自然语言处理领域具有重要作用.以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采用"词性"特征来识别多种语块,那些对于"词"敏感的短语准确率将会很低.因此针对不同的语块采用不同的特征和策略,不同短语的识别相互借鉴,把不同语块的识别集成在一起,将会起到很好的效果.  相似文献   

8.
基于关联度评价的中心词扩展的英文文本语块识别   总被引:2,自引:0,他引:2  
传统的英文文本语块识别的方法大多是通过设定相应的短语标识符号,最终把语块识别问题转化成词性标注问题来解决.实验表明,这种方法不能充分考虑相邻词性的关系和每种短语的内部组成规律.关联度评价中心词扩展的英文文本语块识别方法从另外一个角度来识别英文文本语块.它具有以下特点:①把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;②使用关联度和可信度动态地评价得到的结果.通过对公共测试集的测试,此方法识别的速度较快,而且英语语块识别的F测度值达到了94.05%,与目前的最好结果相当.  相似文献   

9.
面向口语翻译的双语语块自动识别   总被引:1,自引:0,他引:1  
程葳  赵军  刘非凡  徐波 《计算机学报》2004,27(8):1016-1020
语块识别是实现“基于语块处理方法”的基础 .目前 ,针对单语语块的研究成果已有很多 ,但机器翻译更需要双语相关的语块分析 .该文根据口语翻译的实际需要 ,提出了“双语语块”的概念 .并在此基础上 ,实现了一种针对并行语料库进行双语语块自动识别的新方法 .该方法将统计和规则相结合 ,可同时保证双语语块的语义特性和句法规范 .通过在一个 6万句的旅馆预定领域口语语料库中的实验可以看出 ,该方法对汉英并行语料的双语语块识别正确率可达到 80 %左右 .  相似文献   

10.
于东  金天华  谢婉莹  张艺  荀恩东 《软件学报》2020,31(12):3772-3786
文本蕴含识别(RTE)是判断两个句子语义是否具有蕴含关系的任务.近年来英文蕴含识别研究取得了较大发展,但主要是以类型判断为主,在数据中精确定位蕴含语块的研究比较少,蕴含类型识别的解释性较低.从中文文本蕴含识别(CNLI)数据中挑选12 000个中文蕴含句对,人工标注引起蕴含现象的语块,结合语块的语言学特征分析归纳了7种具体的蕴含类型.在此基础上,将中文蕴含识别任务转化为7分类的蕴含类型识别和蕴含语块边界-类型识别任务,在深度学习模型上达到69.19%和62.09%的准确率.实验结果表明,所提出的方法可以有效发现中文蕴含语块边界及与之对应的蕴含类型,为下一步研究提供了可靠的基准方法.  相似文献   

11.
12.
13.
中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的TermRank算法。该方法首先从大量的中文专利文献标题中自动生成词性规则;然后利用生成的词性规则对中文专利文献正文部分进行规则匹配获得候选术语表;再利用提出的TermRank排序算法对候选术语表排序,最终得到术语列表。通过在9 725篇中文专利文献数据上实验,证实了该方法的有效性。
  相似文献   

14.
基于转换的汉语基本名词短语识别模型   总被引:28,自引:10,他引:18  
基本名词短语的识别在自然语言信息处理领域具有重要作用。本文首先从语言学的角度提出了汉语基本名词短语的概念,然后从语言信息处理的角度将用于基本名词短语识别的知识分为两部分,即表示基本名词短语句法组成的基本结构模板(静态知识)与表示基本名词短语出现的上下文环境特征的转换规则(动态知识)。在此基础上设计了一种基于转换的基本名词短语识别模型,该模型可同时结合这两类知识识别基本名词短语。实验结果显示了较高的识别正确率。  相似文献   

15.
当前中文人名识别的研究主要针对中国人名,而对日本人名及音译人名的专门研究相对较少,识别效果也亟待提高。提出利用CRRM方法进行中、日及音译人名同步识别。该方法基于CRF(Conditional Random Fields)并结合了上下文规则及人名可信度模型。此外,利用局部统计算法对边界识别错误的人名进行修正,并利用扩散操作召回未被识别的人名。实验结果表明,中、日、音译人名识别的F值均高于90%,提出的方法可以取得较好的识别效果。  相似文献   

16.
命名实体识别是文本信息处理的重要基础,也是自然语言处理的一项关键技术.近几年来微博迅速发展成为人们进行信息交流的平台,微博文本俨然已经成为进行命名实体抽取的新载体.论文利用微博内容和结构的特点,提出了一种基于统计与规则相结合的命名实体识别的方法.微博文本较短并且文本中含有标签、话题等内容,论文在考虑这些特点基础上,利用微博评论和转发进行词频统计,通过规则筛选,完成命名实体识别.在新浪微博数据上的实验结果表明该方法可以有效地提高微博中命名实体识别效果.  相似文献   

17.
Automatic Classification of Provisions in Legislative Texts   总被引:1,自引:1,他引:0  
Legislation usually lacks a systematic organization which makes the management and the access to norms a hard problem to face. A more analytic semantic unit of reference (provision) for legislative texts was identified. A model of provisions (provisions types and their arguments) allows to describe the semantics of rules in legislative texts. It can be used to develop advanced semantic-based applications and services on legislation. In this paper an automatic bottom-up strategy to qualify existing legislative texts in terms of provision types is described.  相似文献   

18.
在知识获取中,手工填槽是一件繁琐而又枯燥的工作,效率很低。针对一类词条的处理提出了一个面向辞典的知识获取系统,通过分析辞典中文本的特征,最大可能地实现了填槽的机器自动生成,该系统分为三个子系统:词语识别子系统、规则匹配子系统、运行填槽子系统,完成了文本识别、规则匹配和运行填槽功能。  相似文献   

19.
在知识获取中,手工填槽是一件繁琐而又枯燥的工作,效率很低。针对一类词条的处理提出了一个面向辞典的知识获取系统,通过分析辞典中文本的特征,最大可能地实现了填槽的机器自动生成,该系统分为三个子系统:词语识别子系统、规则匹配子系统、运行填槽子系统,完成了文本识别、规则匹配和运行填槽功能。  相似文献   

20.
一种基于特征扩展的中文短文本分类方法   总被引:2,自引:2,他引:0  
针对短文本所描述信号弱的特点,提出一种基于特征扩展的中文短文本分类方法。该方法首先利用FP Growth算法挖掘训练集特征项与测试集特征项之间的共现关系,然后用得到的关联规则对短文本测试文档中的概念词语进行特征扩展。同时,引入语义信息并且改进了知网中DEF词条的描述能力公式,在此基础上对中文短文本进行分类。实验证明,这种方法具有高的分类性能,其微平均和宏平均值都高于常规的文本分类方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号