首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 68 毫秒
1.
随着互联网的迅速发展,Web逐步成为知识获取的重要资源。部分整体关系获取是知识获取中的重要组成部分。该文提出了一种利用搜索引擎从Web中获取部分整体关系的方法。首先构造一种基于部分整体关系分类的意图查询,利用意图查询可以有针对性地从Web中获取尽可能多的包含部分整体关系语料。然后根据网页中的HTML标记和意图查询的格式过滤语料,并从中抽取候选部分整体关系,最后基于部分整体关系在自然语言表述中的特点和汉语的构词规律,提出用于验证候选部分整体关系的度量标准。实验结果表明,该方法取得了较高的准确率和F值。在前20个结果中准确率为86%,最优F值为64%。  相似文献   

2.
部分整体关系获取是知识获取中的重要组成部分。Web逐步成为知识获取的重要资源之一。搜索引擎是从Web中获取部分整体关系知识的有效手段之一,我们将Web中包含部分整体关系的检索结果集合称为部分整体关系语料。由于目前主流搜索引擎尚不支持语义搜索,如何构造有效的查询以得到富含部分整体关系的语料,从而进一步获取部分整体关系,就成为一个重要的问题。该文提出了一种新的查询构造方法,目的在于从Web中获取部分整体关系语料。该方法能够构造基于语境词的查询,进而利用现有的搜索引擎从Web中获取部分整体关系语料。该方法在两个方面与人工构造查询方法和基于语料库查询构造查询方法所获取的语料进行对比,其一是语料中含有部分整体关系的语句数量;二是从语料中进一步获取部分整体关系的难易程度。实验结果表明,该方法远远优于后两者。  相似文献   

3.
胡燕  吴虎子 《福建电脑》2007,(1):114-115
介绍了一种简单但实用的方法,通过在JAVA应用程序中集成Google Web API,实现搜索和收集URL、获取网页并保存到本地磁盘的网页管理库中。  相似文献   

4.
搜索引擎在处理全称和简称的对应关系时,以往只能通过人工添加,造成简称遗漏、搜索结果召回率低等问题。为此,本文提出了一种自动获取机构全称和简称的方法。根据域名地址获取机构网站首页源代码,从中提取相应机构全称,再结合机构名上下文特征词集合从中提取候选简称,最后计算候选简称与全称的相似度确定最终简称。通过对1287个组织机构网站的实验,全称提取正确率达93.9%,简称召回率和正确率分别达85.3%和90.8%,实验表明,该方法效果良好。  相似文献   

5.
在关系抽取中,神经网络模型是目前最常用的技术之一,然而现有神经网络模型很少考虑句子中两个实体之间的结构特征.该文针对关系抽取任务的特点,提出了基于神经网络模型的句子结构获取方法.该方法通过对关系实例中两个实体的位置进行特殊标记,使神经网络模型能够有效捕获句子中关于实体的结构信息.为了验证方法的有效性,分别采用两种主流的...  相似文献   

6.
姜琳  李宇  卢汉  曹存根 《计算机科学》2007,34(12):151-156
文本知识获取(Knowledge acquisition from text,简称KAT)是知识工程中的一个重要研究课题。重点研究如何从大规模Web网页文本中获取地理实体概念及其位置关系知识,本文首先介绍了如何自动和半自动地获取这些地理实体概念及其位置关系的文法模式,建立文法模式库;然后基于文法模式库获取例句来抽取候选概念并进行概念验证;最后利用基于图论的方法构造位置关系图,利用地理领域特定规则进行分析验证。作为统一概念图管理下概念空间的一个重要组成部分,地理实体概念及其位置关系本身不仅是知识库的一个重要部分,还可为知识库中其它领域的知识提供支持。  相似文献   

7.
李斌  方芳 《计算机工程与应用》2006,42(28):167-169,176
单字地名简称识别是中文专名识别的重要组成部分,其中单字国名简称又占到了78.43%。但就现有的词性标注系统来看,还不能很好地对其进行识别。文章提出了一个基于规则的识别方法,以分词文本为底本,通过两次扫描,第一次扫描建立基于语篇的临时国名词表,第二次扫描利用上下文特征词等评分机制,从分词碎片中召回单字国名简称。在封闭测试和开放测试中,都取得了较好的实验结果,以人工分词文本为输入底本,调和平均值分别达到了96.33%和94.96%。  相似文献   

8.
文章提出了适合结构化知识获取的一种思想方法,并结合在种简明而典型的应用领域内实现的过程获取系统KBML,详细地阐述了这种思想的有关方面。它采用分级分阶段的匹配、归纳策略略逐步从示教实例中获取一个完整的过程;把匹配和归纳有机地结合在一起是KBML的核心内容。  相似文献   

9.
Wikipedia一方面能够提供关于特定百科条目的概念性描述;另一方面,也通过分类系统将这些百科条目组织成一个概念网络.它对信息的广泛覆盖和有效组织使其成为了自动化知识获取的常用信息源.然而,仅仅依靠Wikipedia自身的信息,还不足以准确地刻画其内部概念间的关联性知识,而这是符号化知识表述的一个重要组成部分.因此,提出了一种基于多Web信息源的主题概念网络获取方法.它以Wikipedia的分类系统为基础,同时利用搜索引擎收集相关的Web信息作为关联性知识验证和发现的参照系,并通过集成信息检索和自然语言处理等领域的方法,实现了以给定的主题词为核心,在Wikipedia分类系统对应的概念网络中获取面向该主题的概念网络,同时网络内的概念间关系得到识别和标注.我们基于不同领域的主题词进行了实验,对实验结果的经验性评估展示了所获取的主题概念网络既能满足面向主题的要求,其内部的概念关联性知识又具备了一定的精度要求.  相似文献   

10.
"isa"关系是知识获取中一种基本的语义关系,给出了中文"isa"关系的模式表示和获取方法。提出基于模式特征的种子选取算法和基于特征词的种子驱动的模式学习算法。实验说明了方法的有效性。  相似文献   

11.
中文机构名称的识别与分析   总被引:30,自引:7,他引:30  
中文机构名称数目庞大, 层出不穷, 绝大多数未能收入词典, 给自然语言处理带来困扰。但是, 从语言学的角度来看, 机构名称是一种偏正复合式专有名词, 同时又是一类较为简单的偏正名词词组, 有自己的结构规律和形态标记。本文以高校名称为重点,以中国内地、香港和台湾三地实际语料为依据, 从语言学和计算机技术两方面对机构名称的识别与分析展开讨论, 并总结出相应的规则。根据这些规则, 对六百多万字的三地语料库作高校名称识别, 正确率(指前后界定位均正确) 达97.3 % , 召回率为96.9 %。这些规则还可应用于拼音-汉字智能转换和机器翻译等其它领域。  相似文献   

12.
应用自然语言处理技术和复杂网络技术,可以对中文文学作品中内含的社会网络进行抽取和分析。该文以《三国演义》为例,抽取了其中的社会网络,节点是作品中的人物,边是人物之间的联系,边的权重为各章回中的人物共现次数。借助背景知识和互联网构建了角色库辅助网络建模。对构建出来的社会网络进行分析,包括节点度分布、中心性、聚类特征等。结果表明,中文文学作品中的角色分布具有明显的小世界性、有限幂律分布特征和社区特性,同时也有多面性和多元性。  相似文献   

13.
14.
基于自然语言处理的Web内容过滤模型   总被引:5,自引:0,他引:5  
提出了一种基于自然语言处理技术的Web内容过滤模型,引入了中英文两种语言的计算机处理技术,重点讨论了新的具有语义特征的过滤算法,提高了过滤的覆盖率和精确性,并通过实验测试了其性能。  相似文献   

15.
16.
语句级汉字输入技术   总被引:4,自引:6,他引:4  
本文讨论了包括声音输入、键盘输入、文字识别等各种形式的汉字输入技术的研究和发展, 阐述了按照字、词、语句作为汉字输入技术发展阶段的思怒, 提出了适用于上述各种形式的类码语句歧义处理问题, 该问题可描述为有向图求最短路径的问题。本文讨论了采用语法—语义分析和统计模型的最少元素概率推理方法和控制策略, 在知识库完备或不完备的情况下均可进行正常的推理, 并给出基于当时情况下的最佳结果。本文还简要介绍了几个应用事例。  相似文献   

17.
在自然语言处理的研究中,最有希望的应用领域之一是自然语言接口。计算机对自然语言中的查询语言理解的正确程度是自然语言接口质量好坏的关键。通过对汉语查询句——即用于数据库自然语言查询的祈使句和特指问句、是非问句、正反问句、选择问句等共五类句型的研究,建立并研究了复合概念、逻辑概念与标准概念的内在联系,将查询目标概念分解为直接查询目标、逻辑推理目标和比较判断目标三个阶段,研究了这三个阶段的关系。  相似文献   

18.
本文初步探讨了实现关系数据库上泛关系查询与自然语言查询接口的一种方法, 文章对其中的若干问题如词典的组织、翻译算法等作了比较详细的讨论并通过实例进行了具体的说明。  相似文献   

19.
介绍了本体、地理本体和地名本体的基本概念,探讨了在文本工程通用框架GATE(General Architecture for Text Engineering)下,以自然语言处理为基础,借助地名本体,完成Web文本的中文地名识别与歧义消除的关键问题,设计并实现了一个原型系统。通过geo/non\|geo和geo/geo地名歧义的消除,使得识别出来的地名与地球表面具体的地理位置相对应,进而为Web文本中的中国行政区划地名赋予地理坐标和地理语义。做了验证实验,并对实验结果进行了分析。  相似文献   

20.
基于多种知识源的汉语自动分词   总被引:5,自引:0,他引:5  
提出一种汉语分词方法。与其它的如利用单一统计特性的统计方法或者纯规则方法不同,该方法利用字、词、上下文、语法及语义等多种知识源对汉字串中每一隔点的切分可能性进行考察,并在无法彻底消歧的情况下通过模糊综合得出最可能的切分结果。用户可以根据需要修改系统以适应不同文本的特征,并能接收前后词法、语法、语义分析阶段的反馈。因此,该方法具有准确率高、灵活、健壮、回溯迅速的特点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号