共查询到20条相似文献,搜索用时 68 毫秒
1.
随着互联网的迅速发展,Web逐步成为知识获取的重要资源。部分整体关系获取是知识获取中的重要组成部分。该文提出了一种利用搜索引擎从Web中获取部分整体关系的方法。首先构造一种基于部分整体关系分类的意图查询,利用意图查询可以有针对性地从Web中获取尽可能多的包含部分整体关系语料。然后根据网页中的HTML标记和意图查询的格式过滤语料,并从中抽取候选部分整体关系,最后基于部分整体关系在自然语言表述中的特点和汉语的构词规律,提出用于验证候选部分整体关系的度量标准。实验结果表明,该方法取得了较高的准确率和F值。在前20个结果中准确率为86%,最优F值为64%。 相似文献
2.
部分整体关系获取是知识获取中的重要组成部分。Web逐步成为知识获取的重要资源之一。搜索引擎是从Web中获取部分整体关系知识的有效手段之一,我们将Web中包含部分整体关系的检索结果集合称为部分整体关系语料。由于目前主流搜索引擎尚不支持语义搜索,如何构造有效的查询以得到富含部分整体关系的语料,从而进一步获取部分整体关系,就成为一个重要的问题。该文提出了一种新的查询构造方法,目的在于从Web中获取部分整体关系语料。该方法能够构造基于语境词的查询,进而利用现有的搜索引擎从Web中获取部分整体关系语料。该方法在两个方面与人工构造查询方法和基于语料库查询构造查询方法所获取的语料进行对比,其一是语料中含有部分整体关系的语句数量;二是从语料中进一步获取部分整体关系的难易程度。实验结果表明,该方法远远优于后两者。 相似文献
3.
介绍了一种简单但实用的方法,通过在JAVA应用程序中集成Google Web API,实现搜索和收集URL、获取网页并保存到本地磁盘的网页管理库中。 相似文献
4.
5.
6.
文本知识获取(Knowledge acquisition from text,简称KAT)是知识工程中的一个重要研究课题。重点研究如何从大规模Web网页文本中获取地理实体概念及其位置关系知识,本文首先介绍了如何自动和半自动地获取这些地理实体概念及其位置关系的文法模式,建立文法模式库;然后基于文法模式库获取例句来抽取候选概念并进行概念验证;最后利用基于图论的方法构造位置关系图,利用地理领域特定规则进行分析验证。作为统一概念图管理下概念空间的一个重要组成部分,地理实体概念及其位置关系本身不仅是知识库的一个重要部分,还可为知识库中其它领域的知识提供支持。 相似文献
7.
单字地名简称识别是中文专名识别的重要组成部分,其中单字国名简称又占到了78.43%。但就现有的词性标注系统来看,还不能很好地对其进行识别。文章提出了一个基于规则的识别方法,以分词文本为底本,通过两次扫描,第一次扫描建立基于语篇的临时国名词表,第二次扫描利用上下文特征词等评分机制,从分词碎片中召回单字国名简称。在封闭测试和开放测试中,都取得了较好的实验结果,以人工分词文本为输入底本,调和平均值分别达到了96.33%和94.96%。 相似文献
8.
文章提出了适合结构化知识获取的一种思想方法,并结合在种简明而典型的应用领域内实现的过程获取系统KBML,详细地阐述了这种思想的有关方面。它采用分级分阶段的匹配、归纳策略略逐步从示教实例中获取一个完整的过程;把匹配和归纳有机地结合在一起是KBML的核心内容。 相似文献
9.
Wikipedia一方面能够提供关于特定百科条目的概念性描述;另一方面,也通过分类系统将这些百科条目组织成一个概念网络.它对信息的广泛覆盖和有效组织使其成为了自动化知识获取的常用信息源.然而,仅仅依靠Wikipedia自身的信息,还不足以准确地刻画其内部概念间的关联性知识,而这是符号化知识表述的一个重要组成部分.因此,提出了一种基于多Web信息源的主题概念网络获取方法.它以Wikipedia的分类系统为基础,同时利用搜索引擎收集相关的Web信息作为关联性知识验证和发现的参照系,并通过集成信息检索和自然语言处理等领域的方法,实现了以给定的主题词为核心,在Wikipedia分类系统对应的概念网络中获取面向该主题的概念网络,同时网络内的概念间关系得到识别和标注.我们基于不同领域的主题词进行了实验,对实验结果的经验性评估展示了所获取的主题概念网络既能满足面向主题的要求,其内部的概念关联性知识又具备了一定的精度要求. 相似文献
10.
"isa"关系是知识获取中一种基本的语义关系,给出了中文"isa"关系的模式表示和获取方法。提出基于模式特征的种子选取算法和基于特征词的种子驱动的模式学习算法。实验说明了方法的有效性。 相似文献
11.
中文机构名称的识别与分析 总被引:30,自引:7,他引:30
中文机构名称数目庞大, 层出不穷, 绝大多数未能收入词典, 给自然语言处理带来困扰。但是, 从语言学的角度来看, 机构名称是一种偏正复合式专有名词, 同时又是一类较为简单的偏正名词词组, 有自己的结构规律和形态标记。本文以高校名称为重点,以中国内地、香港和台湾三地实际语料为依据, 从语言学和计算机技术两方面对机构名称的识别与分析展开讨论, 并总结出相应的规则。根据这些规则, 对六百多万字的三地语料库作高校名称识别, 正确率(指前后界定位均正确) 达97.3 % , 召回率为96.9 %。这些规则还可应用于拼音-汉字智能转换和机器翻译等其它领域。 相似文献
12.
13.
14.
15.
16.
17.
18.
本文初步探讨了实现关系数据库上泛关系查询与自然语言查询接口的一种方法, 文章对其中的若干问题如词典的组织、翻译算法等作了比较详细的讨论并通过实例进行了具体的说明。 相似文献
19.
中文地名识别与歧义消除-以中国县级以上行政区划地名为例 总被引:1,自引:0,他引:1
介绍了本体、地理本体和地名本体的基本概念,探讨了在文本工程通用框架GATE(General Architecture for Text Engineering)下,以自然语言处理为基础,借助地名本体,完成Web文本的中文地名识别与歧义消除的关键问题,设计并实现了一个原型系统。通过geo/non\|geo和geo/geo地名歧义的消除,使得识别出来的地名与地球表面具体的地理位置相对应,进而为Web文本中的中国行政区划地名赋予地理坐标和地理语义。做了验证实验,并对实验结果进行了分析。 相似文献
20.
基于多种知识源的汉语自动分词 总被引:5,自引:0,他引:5
提出一种汉语分词方法。与其它的如利用单一统计特性的统计方法或者纯规则方法不同,该方法利用字、词、上下文、语法及语义等多种知识源对汉字串中每一隔点的切分可能性进行考察,并在无法彻底消歧的情况下通过模糊综合得出最可能的切分结果。用户可以根据需要修改系统以适应不同文本的特征,并能接收前后词法、语法、语义分析阶段的反馈。因此,该方法具有准确率高、灵活、健壮、回溯迅速的特点。 相似文献