共查询到20条相似文献,搜索用时 854 毫秒
1.
编制后控词表是实现智能查询的重要环节.针对建立"智能化建设法规政策知识库",重点研究通过后控词表实现智能化查询的方法.针对自然语言查询涉及政策法规和案例两类查询结果,从而设计了包含有两个主题词表,共6个词表的后控词表模式,分析词表关联关系,说明词表的词汇集合关系,并给出了基于此模式的智能查询算法,对大型文献智能知识库系统开发中后控词表的编制具有一定借鉴意义. 相似文献
2.
3.
4.
汉语框架语义知识库概述 总被引:1,自引:0,他引:1
介绍了汉语框架语义知识库(Chinese FrameNet,简称CFN)的语义描述体系。CFN是一个以Fillmore的框架语义学为理论基础、以伯克利FrameNet为参照、以汉语语料事实为依据的供计算机使用的汉语词汇语义知识库,它包括框架库、句子库和词汇库三部分。经过三年的努力,目前已取得了阶段性成果。CFN构建工程量大,难度很高,目前课题组只能在有限目标下开展工作,但是,已经探索了一条可行的技术路径,为实现语义Web中的语义知识共享以及智能化、个性化的Web服务提供了基础资源。 相似文献
5.
积20余年之努力与锤炼,北京大学计算语言学研究所完成的一项科研成果“综合型语言知识库”于2007年2月通过了教育部组织的技术鉴定。鉴定结论认为“其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平”。本文在介绍以《现代汉语语法信息词典》为基础的综合型语言知识库的规模、构成、内容、品质和发展历程之后,陈述建设综合型语言知识库的理念,期望与读者分享在计算语言学和自然语言处理这一交叉学科领域内治学的心得与研发的经验。同时也对这项成果的应用实例进行分析,评估它的应用潜力,期望它在以汉语为核心的多语言信息处理事业的发展中起到铺路填坑或者投石问路的作用。 相似文献
6.
设计并实现一个词汇知识获取及语义计算平台VKASCP,以及自然语言处理所需要的基础功能模块。系统主要功能模块包括合成词识别、合成词词性标注及分词修正、主题词提取、词汇语义计算,以及基于主题词集的自动文摘和文本相似度计算。VKASCP融文本语料库、词汇知识库于一体,为词汇知识获取及语义计算提供了一个良好的研究平台,并为今后构建词汇语义知识库打下了坚实的基础。 相似文献
7.
1.引言 在数据库领域,由于描述性语言SQL的成功使用,描述性更加受到重视[1,2,3,4]。描述性语言Data-log的提出,使得一些学者认为知识库语言应该是描述性的程序设计语言[4]。然而多年来的研究,不但没有开发出一个描述性的知识库程序设计语言,而且还阻碍了知识库的实用化[5]。本文研究了描述性与逻辑语言、知识库语言之间的关系,提出了三个观点:1)描述性语言是计算不完备的,因此不能作为独立的程序设计语言;2)逻辑语言是描述性语言的合适形式;3)追求语言的描述性是知识库系统实用化的障碍之一。 相似文献
8.
9.
就国外的几个隐喻知识库,包括Master Metaphor List、Senseframe、MetaBank、Metalude、Hamburg Metaphor Database、ATTMeta以及国内的隐喻句库的建设进行综述,并对上述隐喻知识库作了简单评述。最后提出了一种建立面向计算的大规模汉语隐喻知识库构建的设想。 相似文献
10.
我们采用“大知识库—小运算”的技术路线,提出一个汉语亲属关系的自动推理模型。首先,在充分研究汉语亲属关系的词汇—语法表达的基础上,给汉语常见的亲属关系及其情景语义建立认知模型。然后,据此构造大型的汉语亲属关系知识库,包括外围知识库和核心知识库两种。前者详尽列举亲属名词和称呼动词所涉及的各种句式,并给出相应的语义表达式;后者包括三个子库 性质库(刻画亲属关系中的性别、长幼等属性)、逆判断库(刻画“父—子”等反对称关系对子)和传递库(刻画通过中介人把称呼人与被称呼人联系起来的各种路径,共计3 600余条)。在此基础上,形成了一个汉语亲属关系自动推理模型,可以在已知ABC三边关系的任意两边时快速地推导出未知的另一边关系。 相似文献
11.
词义知识获取是词义知识库建设、词义消歧等任务的基础和起点,目前该工作基本依赖人类专家的智慧和洞察力,在大规模文本处理上缺乏意义计算的客观性和一致性。该文以汉语的中高频形容词为样本,深入挖掘词义特征并采用有参数初始化过程的EM迭代算法,实现了从真实文本中自动发现并区分词语词义的过程。该词义区分算法选取易获取的词形特征、基于大规模语料的搭配特征、基于网络语料的属性—宿主关系特征,替代以往难以获取的句法结构特征,并进一步利用HowNet优化了词形特征的选择。该工作可以应用于信息检索等领域,能够对现有词典起到修改和补充的作用,该思路亦可扩展到其他汉语词类上去。 相似文献
12.
13.
事件检测主要研究从非结构化文本中自动识别事件触发词,实现所属事件类型的正确分类。与英文相比,中文需要经过分词才能利用词汇信息,还存在“分词-触发词”不匹配问题。针对中文语言特性与事件检测任务的特点,本文提出一种基于多词汇特征增强的中文事件检测模型,通过外部词典为字级别模型引入包含多词汇信息的词汇集,以利用多种分词结果的词汇信息。同时采用静态文本词频统计与自动分词工具协同决策词汇集中词汇的权重,获取更加精确的词汇语义。在ACE2005中文数据集上与现有模型进行实验对比分析,结果表明本文方法取得了最好的性能,验证了该方法在中文事件检测上的有效性。 相似文献
14.
15.
中文分词是一个困难的、重要的被广泛研究的序列数据建模问题.以往应用条件随机场进行汉语分词时,将分词转化为对汉字的标注,造成了大量的冗余的候选切分,以至于在分词过程中大大降低了分词的速度.提出了使用词图作为基础的标记序列来完成汉语的词法分析,这样充分利用了现有的词典资源,在属性框架的选择时也可以方便地融合语言知识,并且长度歧视及状态歧视方面的影响也被减到最小.提出了应用条件随机场来构建统一的汉语词法分析. 相似文献
16.
电子词典是在机器翻译系统中包含的信息量最大的一个部件,电子词典包的质量和容量直接限定机器翻译的质量和应用范围。与一般的电子词典不同,机器翻译词典每个词条都要比一般的电子词典增加词类信息、语义类别信息和成语等。文章以频率统计和频率分布统计作为维汉机器翻译词典的词条收录原则,统计维吾尔文中常用的单词数目,论述维汉机器翻译词典的设计思想,用BNF形式语言和Jackson图描述维汉机器翻译词典应包含的词条信息,最后介绍词典的具体构造方法、词条排序原则、索引表和属性库的数据结构和词典信息的查找方法。试验表明该词典在解决维吾尔语词汇歧义、结构歧义、提高汉语译文准确率等方面较为有效。 相似文献
17.
18.
在此前的汉语未登录词语义预测中,构词相关的知识一直被当做预测的手段,而没有被视为一种有价值的知识表示方式,该文在“语素概念”基础上,深入考察汉语的语义构词知识,给出未登录词的“多层面”的词义知识表示方案。针对该方案,该文采用贝叶斯网络方法,构建面向汉语未登录词的自动语义构词分析模型,该模型能有效预测未登录词的“多层面”的词义知识。这种词义知识表示简单、直观、易于拓展,实验表明对汉语未登录词的语义预测具有重要的价值,可以满足不同层次的应用需求。 相似文献
19.
Violaine Prince 《Applied Intelligence》1997,7(2):125-146
This paper presents a lexical model dedicated to the semanticrepresentation and interpretation of individual words inunrestricted text, where sense discrimination is difficult toassess. We discuss the need of a lexicon including local inferencemechanisms and cooperating with as many other knowledge sources(about syntax, semantics and pragmatics) as possible. We suggest aminimal representation (that is, the smallest representationpossible) acting as a bridge between a conceptual representation andthe microscopic sense variations of lexical semantics. We describean interpretation method providing one or many alternativecandidate(s) to the word, as representatives of its meaning in thesentence (and text). 相似文献
20.
基于论坛语料识别中文未登录词的方法 总被引:2,自引:1,他引:1
为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法.利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD(由Mutual Information函数和Duplicated Combination Frequency函数构造)对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到词库中.实验结果表明,该方法可以有效提高未登录词的识别效率. 相似文献