首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 218 毫秒
1.
针对从中文百科中抽取属性关系时所面临的训练语料匮乏问题,提出一种利用极少人工参与的弱监督自动抽取方法。首先,利用中文百科条目信息模板中的半结构化属性关系回标条目文本自动获取训练语料;然后,根据朴素贝叶斯分类原理优化训练语料;最后,基于条件随机场(CRF)建立属性关系抽取模型。在互动百科中采集的数据集上进行实验,综合评价F值达到了80.9%。结果表明该方法能够获得质量较高的训练语料,并取得良好的抽取性能。  相似文献   

2.
针对在中文资源的关系抽取中,由于中文长句句式复杂,句法特征提取难度大、准确度低等问题,提出了一种基于平行语料库的双语协同中文关系抽取方法。首先在中英双语平行语料库中的英文语料上利用英文成熟的句法分析工具,将得到依存句法特征用于英文关系抽取分类器的训练,然后与利用适合中文的n-gram特征在中文语料上训练的中文关系抽取分类器构成双语视图,最后再依靠标注映射后的平行语料库,将彼此高可靠性的语料加入对方训练语料进行双语协同训练,最终得到一个性能更好的中文关系抽取分类模型。通过对中文测试语料进行实验,结果表明该方法提高了基于弱监督方法的中文关系抽取性能,其F值提高了3.9个百分点。  相似文献   

3.
对中文下位词自动抽取方法进行研究,提出一种基于词典信息和网络百科的下位词获取方法,旨在构建一个较为完善的上下位词语知识库.基于词典信息的抽取方法利用《中文概念词典》和《中国分类主题词表》中蕴含的格式化信息获取上下位关系.基于网络百科的抽取方法利用维基百科、百度百科和互动百科,分析百科网页地址和内容格式,利用正则式抽取下位词语.对获取到的下位词进行自动过滤和人工校对,实验表明,与NLP&CC 2012上下位关系评测结果相比,本文方法取得较好效果.  相似文献   

4.
实体关系抽取在信息检索、自动问答、本体学习等领域都具有重要作用。提出了基于弱监督学习的关系抽取框架。首先利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料;针对训练语料数量较少导致特征不足的问题,采用基于朴素贝叶斯的句子分类器和基于自扩展的训练方法,从未标注数据中获取更多的训练语料;然后利用条件随机场模型训练关系抽取器。实验结果表明所提方法的有效性,有现有方法相比,文中方法获得较高的准确率。  相似文献   

5.
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.  相似文献   

6.
基于自监督学习的维基百科家庭关系抽取   总被引:1,自引:0,他引:1  
传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息--家庭关系三元组映射到自由文本中,从而自动生成已标注的训练语料;然后,使用基于特征的关系抽取方法从中文维基百科的文本中获取人物间的家庭关系。在一个人工标注的家庭关系网络测试集上的实验结果表明,该方法优于自举方法,其F1指数达到77%,说明自监督学习可以较为有效地抽取人物家庭关系。  相似文献   

7.
相比于传统有监督的中文关系抽取方法,基于远程监督的方法可极大地避免训练语料匮乏的问题,因此得到了广泛关注。然而,远程监督方法的性能却严重受困于构建语料过程中引入的错误标签,因此为缓解噪声数据所带来的影响,提出一种基于双重注意力机制的关系抽取模型。该模型可通过双向门限循环单元(Bidirectional Gated Recurrent Unit,BI-GRU)网络获取训练实例的双向上下文语义信息,并利用字符级注意力机制关注实例中重要的语义特征,同时在多个实例间引入实例级注意力机制计算实例与对应关系的相关性,以降低噪声数据的权重。在基于互动百科构建的中文人物关系抽取语料上的实验结果表明,该模型相比于单注意力机制模型可有效利用实例中所包含的语义信息并降低错误标签实例的影响,获取更高的准确率。  相似文献   

8.
专利信息抽取是专利分析的基础,属性及属性值的识别与抽取是专利信息抽取所要解决的关键问题。目前,在中文专利信息抽取领域针对属性和属性值同步抽取的研究较少。本文以中文专利摘要作为实验语料,运用统计学习知识,提出一种基于条件随机场的抽取方法。该方法将属性和属性值视为命名实体,利用语料训练得到条件随机场模型,从而实现对属性和属性值的抽取;再利用挖掘的关联规则完成属性与属性值匹配。实验结果的准确率、召回率和F值分别是80.8%、81.2%和81.0%,其表明该方法能够高效同步抽取属性和属性值。同时,在抽取结果的基础上,本文完成了对专利的分析和同类专利的比较,体现了本方法的实用价值。  相似文献   

9.
珠杰  洪军建 《计算机科学》2017,44(Z6):141-145, 150
针对人物关系语料缺乏的问题,研究了基于互动百科的自动标注方法;针对传统浅层机器学习模型特征表示能力差的问题,提出了基于深度神经网络模型SDAs的人物关系抽取方法。重点研究了多个特征组合的人物关系抽取效果以及不同深度SDAs网络的人物关系抽取效果。根据实验分析,F系数可达到73.75%。  相似文献   

10.
针对传统实体对齐方法在中文异构网络百科实体对齐任务中效果不够显著的问题,提出一种基于实体属性与上下文主题特征相结合的实体对齐方法。首先,基于百度百科及互动百科数据构造中文异构百科知识库,通过统计方法构造资源描述框架模式(RDFS)词表,对实体属性进行规范化;其次,抽取实体上下文信息,对其进行中文分词后,利用主题模型对上下文建模并通过吉布斯采样法求解模型参数,计算出主题-单词概率矩阵,提取特征词集合及对应特征矩阵;然后,利用最长公共子序列(LCS)算法判定实体属性相似度,当相似度位于下界与上界之间时,进一步结合百科类实体上下文主题特征进行判定;最后,依据标准方法构造了一个异构中文百科实体对齐数据集进行仿真实验。实验结果表明,与经典的属性相似度算法、属性加权算法、上下文词频特征模型及主题模型算法进行比较,所提出的实体对齐算法在人物领域和影视领域的准确率、召回率与综合指标F值分别达到97.8%、88.0%、92.6%和98.6%、73.0%、83.9%,比其他方法均有较大的提高。实验结果验证了在构建中文异构百科知识库场景中,所提算法可以有效提升中文百科实体对齐效果,可应用到具有上下文信息的实体对齐任务中。  相似文献   

11.
针对基于机器学习的人物关系抽取需要人工选取特征的问题,提出一种基于卷积神经网络的中文人物关系抽取方法。采用搜狗实验室公开的中文全网新闻语料库来训练Word2vec模型,得到基于分布式表示的词向量表达,并完成了对百度百科数据集的词向量转化工作。设计一种基于经典CNN模型的中文人物关系抽取系统方案,用CNN模型自动提取特征并进行人物关系的分类,实现了5类常见人物关系的提取,准确率达到92.87%,平均召回率达到86.92%。实验结果表明,该方法无需人工构建复杂特征即可得到较好的人物关系抽取效果。  相似文献   

12.
信息抽取是数据挖掘的一个重要领域,文本信息抽取是指从一段自由文本中抽取出指定的信息并将其结构化数 据存入知识库供用户查询或下一步处理所用。人物属性信息抽取是智能人物类搜索引擎构建的重要基础,同时结构化信 息也是计算机所能理解的一种数据格式。作者提出了一种自动获取百科人物属性的方法,该方法利用各属性值的词性信 息来定位到百科自由文本中,通过统计的方法发现规则,再根据规则匹配从百科文本中获取人物属性信息。实验表明该 方法从百科文本中抽取人物属性信息是有效的。抽取的结果可以用来构建人物属性知识库。  相似文献   

13.
双语词典是跨语言自然语言处理中一项非常重要的资源.目前提取双语词典的方法主要是基于平行语料库和基于可比语料库,但是这两种方法在提取新词或者某些技术术语时都存在双语资源匮乏的问题.相比之下,基于部分双语语料的方法由于利用的是新闻或者百科知识,故可以很好地解决这个问题,然而目前基于部分双语语料的方法主要集中在对文本内容的提...  相似文献   

14.
复句是汉语语法的重要实体单位,关系词的自动识别是复句标识的基础,对复句的标识以及篇章的研究有重要意义。在对汉语复句语料库进行广泛分析的基础上,从复句关系词所在的环境和关系词的组合搭配方面进行特征的提取,对提取的特征进行形式化描述。采用互信息和信息增益相结合的方式进行特征选择以及冗余特征的消除;使用贝叶斯模型对特征集合进行训练和测试;将基于统计过程的结果转化为规则,形成规则库,并根据规则进行关系词自动识别。实验结果显示,本方法获得了较高的识别正确率,具有可行性和有效性。  相似文献   

15.
训练语料库的规模对基于机器学习的命名实体间语义关系抽取具有重要的作用,而语料库的人工标注需要花费大量的时间和人力。该文提出了使用机器翻译的方法将源语言的关系实例转换成目标语言的关系实例,并通过实体对齐策略将它们加入到目标语言的训练集中,从而使资源丰富的源语言帮助欠资源的目标语言进行语义关系抽取。在ACE2005中英文语料库上的关系抽取实验表明,无论是将中文翻译成英文,还是将英文翻译成中文,都对另一种语言的关系抽取具有帮助作用。特别是当目标语言的训练语料库规模较小时,这种帮助就尤其显著。  相似文献   

16.
王蕾  杨季文 《微机发展》2006,16(11):195-198
提出了一种新的基于属性标记的专有名词统一识别方法。其基本思想是:根据专有名词的成词特点,利用标注语料库,设定词语属性作为标准属性重新进行标注,在此语料基础上进行专有名词成词结构、成词环境的实例提取,并采用基于转换的错误驱动方法对提取的实例进行适用规则提取。在提取的实例和规则的基础上进行属性标注,是一种基于转换的错误驱动规则自学习方法与基于实例的学习方法相结合的基于浅层句法分析的一种新的识别专有名词的方法。实验证明该方法在测试样本集上准确率达到95.3%,召回率达到92.5%,是一种有效的专有名词识别方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号