首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
针对汉语文本语义搭配错误,在对《现代汉语语义信息词典》(以下简称《语义词典》)及《知网》相关属性的研究基础上,提出了基于多知识源的语义搭配知识库的构建方法,并设计出了面向汉语文本语义查错的三层语义搭配知识库结构.在此基础上,设计并实现了一个汉语文本自动查错算法.实验结果表明,基于上述方法所设计的语义搭配知识库,可以大大提高汉语文本语义查错算法错误查找的召回率,对于语义查错的研究具有一定的借鉴作用.  相似文献   

2.
搭配在语言学习、辞典编撰或自然语言处理的应用中有重要价值,搭配的自动荻取是自然语言计算的基本研究领域之一.利用对数似然度、卡平方和互信息作为关联强度测度,从Penn Treebank语料库中自动获取搭配候选,以比较3种测度的不同特性.实验结果表明由于3种测度遵从不同的分布假设和倾向,抽取的搭配具有不同的分布特征.  相似文献   

3.
基于条件随机场的汉语动宾搭配自动识别   总被引:3,自引:1,他引:2  
该文提出一种基于机器自动学习的统计模型条件随机场的方法用于汉语动宾搭配的自动识别。实验比较了两种分词与词性标记集下的识别效果,并增加了词性筛选准则作为优化处理。在特征选择上,考察了动词次范畴特征、上下文特征以及它们之间的组合特征的不同实验结果。综合实验结果,基于树库分词和词性标记的最好结果F值是87.40%,基于北京大学标准的分词和词性标记的最好结果F值是74.70%。实验表明,条件随机场模型在词语搭配实例自动识别方面有效可行。  相似文献   

4.
基于Web的大规模语料库构建方法   总被引:2,自引:0,他引:2       下载免费PDF全文
低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法,主要解决如何基于Web构建大规模的语料库及对语料库纠错,从而提高其质量。该方法利用网格技术的大规模计算能力与Wiki的开放编辑环境去收集和处理语料,根据可信度模型挑选出不可信的语料并由人工进行校对,计算校对后结果的可信度,选择出最可信的结果作为正确语料存储到语料库中。  相似文献   

5.
当今互联网已成为一个巨大的开放式知识库,其中包含着许多有价值的信息。互联网信息呈现形式多样性的 特点,如何初步筛选出有价值的网页,是信息抽取的第一要务,也是构建知识库的基础。本文在建立互联网模型基础上,利用 Hadoop 平台下的Pagerank 算法,旨在研究如何在节省时间和空间基础上筛选出有价值的网页,为从互联网抽取有价值信息构 建知识库提供解决方案。  相似文献   

6.
基于Web语料库的知识发现设计与研究   总被引:1,自引:0,他引:1  
提出了Web语料库的概念,并且通过讨论Web信息的抽取、分类及语料的标注等来讲述语料库的构建。在此基础上,进一步阐述了基于Web语料库的知识发现的实现原理及具体设计思想,分析了应用实例的架构、算法及其局限性。阐述了用于挖掘语料库信息的索引设计、知识发现过程及知识的表现等。  相似文献   

7.
大规模现代汉语标注语料库的加工规范   总被引:14,自引:5,他引:9  
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法) ,并标出专有名词以及短语型的地名、机构名称等等。 规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。 要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。  相似文献   

8.
王璐  张仰森  吴林 《计算机工程》2012,38(20):109-112
为更全面准确地从字词搭配中获取语义搭配信息,提出一种新的语义搭配知识提取模型和知识库的表示方法.利用特殊度度量词语搭配的相关程度,在此基础上,基于知网的语义信息,实现从42万条记录的词语搭配中定量地抽取语义搭配信息.实验结果表明,该方法的语义搭配准确率为92.1%,且较大地扩充了字词搭配的规模.  相似文献   

9.
现代汉语虚词用法繁杂多样,虚词用法的研究对汉语语义理解及语法分析起着非常重要地作用。该文在分析虚词及词汇知识库研究现状的基础上,对三位一体的现代汉语虚词用法知识库中虚词用法词典、虚词用法规则库和虚词用法标注语料库的建设过程进行了详细描述,对虚词知识库现存的问题进行了分析。利用已经构建的现代汉语虚词知识库,对虚词用法自动识别进行了研究,并对现代汉语虚词知识库的应用进行了初步的探讨。  相似文献   

10.
在知识库构建中,最重要的部分就是提取文本中的三元组,而三元组的提取需要实体抽取和实体关系抽取技术。针对实体抽取提出了一种CWATT-BiLSTM-LSTMd(character word attention-bidirectional long short-term memory-long short-term memory)模型。该模型可以有效解决实体抽取中一词多义问题,并且可以模拟标签的依赖问题。在实体抽取的基础上进行实体关系的抽取,为解决实体关系抽取中远程监督的局限性,提出一种基于强化深度学习的RL-TreeLSTM(reinforcement learning tree long short-term memory)模型。该模型分为选择器和分类器,选择器选择有效的句子传入分类器,分类器对句子中实体对的关系标签进行预测。选择器和分类器共同训练以优化选择和分类过程,可以有效降低远程监督带来的噪音。实验结果表明,提出的模型和方法能有效地提高实体及其关系的抽取性能。  相似文献   

11.
开放型对话是对话系统的一个重要分支,有着极强的应用前景。它不同于任务型对话,具有较强的随机性和不确定性。该文从回复方式驱动对话技术发展这个角度切入,进行开放型对话技术发展过程的梳理,紧扣序列到序列及其改良模型在对话生成场景中应用的这条主要线索,对开放型对话的关键技术进行了探讨和研究。上述研究勾画出了从单轮对话到多轮对话发展的主要研究主线。为进一步探索对话技术发展的内在规律和发展趋势,通过研究发现,基于序列到序列的生成模型在面向多轮对话生成的任务场景时,显现出模型实现特点和应用场景不完全匹配的问题。因此,在该文的最后,从引入外部知识、改写机制及代理机制三个角度切入,初步探索了相关技术针对多轮对话生成的可能改进方向。  相似文献   

12.
格语法理论中一般动词带有必须格,而汉语中右侧带必须格的动词映射到依存句法中该动词一般带有宾语。基于该理论识别依存句法分析结果中缺失动宾关系依存弧的现象,针对该类错误,提出了一种基于知识约束的算法,寻找缺失依存弧以改进依存句法分析。实验结果表明,利用语言学知识能有效地识别依存句法分析结果中缺失动宾关系依存弧的动词,识别准确率达到93.80%,改进后的系统UAS值提升了0.21%,动宾关系UAS值提升了2.14%,说明利用语言学知识能够改善依存句法分析效果。  相似文献   

13.
GSIES-TOOL中的知识表示及知识库的构造   总被引:1,自引:0,他引:1  
徐勇  钟珞  杨柯 《计算机工程与应用》2004,40(27):182-184,229
在开发岩土工程安全监测专家系统开发工具(GSIES-TOOL)的过程中,针对岩土工程安全监测领域的具体特点,将传统的产生式规则和推理树、方法、实例、解释机制封装在一起,设计了一种新的知识表示方法OORL。在用OORL来描述该领域的知识后,根据对该领域知识的分类,进一步采用树形结构对该系统的知识库进行了分级构造,并通过双向链条机制对知识库中的相邻层次进行约束,以确保对知识库维护的安全性。由此而建立起来的知识库层次性好、推理效率高、易于管理。  相似文献   

14.
构建大规模的知识库是人工智能、自然语言理解等领域的基础任务之一。症状作为描述病人的主观感受和诊断疾病的重要依据,更是优化智能导诊、医学问答等任务的重要因素。该文在现有的医学症状知识库研究的基础上,结合症状的概念、特征及在医学诊断中发挥的作用,构建了一个公开的中文症状知识库。该知识库从症状的本体分类、相关疾病、发作部位及多发人群等层面对相关属性进行了详细描述,涵盖了8 772种症状,共计146 631条属性关系。所构建的症状知识库(CSKB)是中文医学知识图谱的重要组成部分,并为KBQA、知识推理及决策支持等应用提供了数据基础。  相似文献   

15.
分类体系完善、药品信息全面的药品知识库能够为临床决策以及临床合理用药提供依据和支持。该文以国内的多个医药资源作为参考和数据来源,建立了药品库知识描述体系和分类体系,对药品进行标准化分类并形成详细的知识描述,构建了多来源的中文药品知识库(Chinese Medicine Knowledge Base, CMKB)。所构建的CMKB的分类包括27种一级类别和119种二级类别,从药品的适应证、用法用量等多个层面对14 141种药品进行描述并采用BiLSTM-CRF和T-BiLSTM-CRF模型将非结构化描述中的疾病实体进行了信息抽取,形成了对药品属性的结构化信息抽取,建立了药品实体与自动抽取的疾病实体之间的知识关联。所构建的CMKB能够与中文医学知识图谱进行连接,扩充药品信息,并能够为智能诊断和医疗问答等提供知识基础。  相似文献   

16.
知识库问答依靠知识库推断答案,需要大量带标注信息的问答对,但构建大规模且精准的数据集不仅代价昂贵,还受领域等因素限制.为缓解数据标注问题,面向知识库的问题生成任务引起了研究者关注,该任务的特点是利用知识库三元组自动生成问题,但现有方法仅由一个三元组生成的问题过于简短,且缺乏多样性.为生成信息量丰富且多样化的问题,该文采...  相似文献   

17.
POADES知识库的构建   总被引:1,自引:0,他引:1       下载免费PDF全文
提出面向问题分析与决策专家系统的知识库构建方法,并用于公路工程质量问题智能分析与诊断专家系统开发。以问题为核心,根据关键的基本对象、问题对象、问题现象对象、原理知识对象和过程知识对象(MP4对象)对知识进行筛选,实现知识领域化,对其进行抽象和分类得到层次化表示的问题对象树,以问题对象树为依据构建知识字典和知识关系。结果证明该方法可以较快地建立知识库。  相似文献   

18.
网络大数据时代的到来使得开放知识库的构建技术越来越受到学术界和工业界的关注。近年来,依托开放知识库构建技术而构建的知识库及相关应用层出不穷。然而,目前并没有一种较为统一、全面的开放知识库构建技术的多维量化评价方法。在已有工作的基础之上,提出了一套开放知识库构建技术的多维评价指标体系,综合考虑包括开放知识库的构建准确率、构建时间、构建规模在内的多个维度,并在此基础上提出了开放知识库构建技术的多维量化评价方法。实验表明,开放知识库构建技术的评价结果较传统的评价方法更为全面、合理,并且可以根据实际应用中维度的重要性差异产生不同角度的评价结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号