首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
文章针对远洋运输业业务邮件的特点,结合Ontology技术,信息抽取技术,通过建立领域Ontology,对领域本体进行解析,生成抽取规则,对业务邮件进行信息抽取。试图从繁多的业务邮件中,抽取我们需要的业务信息,以一种结构化的形式呈现在用户面前,提高远洋运输业办公效率。  相似文献   

2.
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。  相似文献   

3.
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。  相似文献   

4.
基于情感Ontology的资源分析模型   总被引:1,自引:0,他引:1  
对资源分析方法进行了研究,并提出了一种基于情感Ontology的分析方法。首先基于“知网”构建情感Ontology,然后基于情感Ontology抽取资源分析的特征词汇并判断其情感倾向性,最后根据抽取的特征词汇对整篇文本的情感倾向进行分析。实验结果表明,在以人工标注做Baseline的基础上,利用情感Ontology抽取特征词汇的资源分析方法可以使情感识别的准确率达到78.87%。  相似文献   

5.
提出一种从科技文献等文档中自动抽取元数据的方法,将自动归纳法和相似特征度算法结合起来,基于特征相似的归纳学习算法自动生成抽取规则,并对文档进行元数据的自动抽取。这种方法利用文档自身某些特有属性,对文档的内容进行分块,利用归纳法自动生成抽取规则,并结合特征相似度对生成规则进行匹配,然后对文档元数据信息进行自动抽取,提高了自动生成规则的效率和抽取元数据信息的准确率。  相似文献   

6.
基于Ontology的数据库自然语言查询接口的研究   总被引:3,自引:1,他引:2  
提出了一种基于Ontology的关系数据库自然语言查询接口的系统模型及设计框架.采用WordNet作为基本数据库并在WordNet之上定义领域词库,可以提高语法分析的识别率;同时利用Ontlogly知识表达能力存储关系数据库概念模型,并对概论模型的内容进行扩充;另外对Ontology和WordNet的同义词集进行关联,可以提高语义的识别率.用户的输入查询语句通过语法分析、语义分析生成中间表达式语言DRS,然后通过模板技术转换成SQL,通过DBMS执行SQL并返回结果.实验证明,这种方案不但实用可行,而且通过逐步完善Ontology知识库的定义,可以大大提高查询的命中率;另外通过WordNet和Ontology定义领域词库和领域知识,提高了系统的可移植性.最后,所提供的方法可以很容易地移植到其他领域.  相似文献   

7.
罗军  高琦  王翊 《计算机工程》2010,36(23):85-87
实现语义Web目标的一个重要前提是利用本体词汇标注Web资源。为此,提出一种基于弱监督(Bootstrapping)的本体标注方法。对给定的本体进行解析,生成规则文件,通过文本分类筛选出领域文档。采用Bootstrapping的方法进行信息标注抽取和本体推理,经过几次循环后,只利用少量的训练文本就能达到较好的标注效果。实验证明,该方法实体识别准确率高,标注效果好。  相似文献   

8.
张传岩  洪晓光  彭朝晖  李庆忠 《软件学报》2012,23(10):2612-2627
在传统信息抽取的基础上,研究Web实体活动抽取,基于格语法对实体活动进行了形式化定义,并提出一种基于SVM(supported vector machine)和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确地抽取实体的活动信息.首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场.在抽取过程中,通过分类器获得包含实体活动的语句,然后利用扩展条件随机场对传统条件随机场中不能利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率.通过多领域的实验,其结果表明,所提出的抽取方法能够较好地适用于Web实体活动抽取.  相似文献   

9.
基于包装器的Deep Web自动语义标注   总被引:3,自引:1,他引:2       下载免费PDF全文
为最准最全地对页面抽取的数据进行语义标注,提出一种基于包装器自动语义标注的方法。该方法利用多个标注源进行组合标注,有效解决单标注源标注率不高问题,同时针对标注不完全问题,给出利用多个数据源的互补关系来标注,生成高效率的标注包装器对抽取结果自动标注。实验结果证明,该方法具有较高的准确性和效率。  相似文献   

10.
提出了概念-权向量组匹配算法。该算法对输入信息和待评估Ontology进行语义分析,生成对应的概念.权向量组,利用概念.权向量组的匹配结果生成作为过滤和排序依据的结果向量。并利用该算法开发了Ontology搜索引擎——Wl OntoSearch。  相似文献   

11.
结合结构下文及词汇信息的汉语句法分析方法   总被引:2,自引:0,他引:2  
针对句法分析中上下文无关语法模型对句子信息利用的不足,通过融入结构下文和部分词汇信息,提出两种基于概率上下文无关语法模型的短语结构消歧方法,以达到消解结构歧义的目的;引入分层分析的算法,通过损失一定的时间效率使得在提高分析准确率的同时保证分析结果的全面性。实验结果表明,融入结构下文及词汇信息的汉语句法分析方法,利用了更多的句子信息,与上下文无关语法相比有着更强的消歧能力。  相似文献   

12.
This paper presents a robust parsing approach which is designed to address the issue of syntactic errors in text. The approach is based on the concept of an error grammar which is a grammar of ungrammatical sentences. An error grammar is derived from a conventional grammar on the basis of an analysis of a corpus of observed ill-formed sentences. A robust parsing algorithm is presented which is applied after a conventional bottom–up parsing algorithm has failed. This algorithm combines a rule from the error grammar with rules from the normal grammar to arrive at a parse for an ungrammatical sentence. This algorithm is applied to 50 test sentences, with encouraging results.  相似文献   

13.
One of the difficult problems that faces a compiler writer is to devise a grammar that is suitable for both efficient parsing and semantic attribution. This paper describes a system that resolves conflicts in LR(1) parsing by taking advantage of information in the parse tree. The system, which functions as part of a compiler generator, rewrites the user's grammar to remove parsing conflicts. It then places code into the generated compiler that rewrites the parse tree during parsing so as to produce the tree of the original grammar. The compiler writer can then write the semantic attribution to fit his or her original grammar without any knowledge of the changes made. The method is expected to be efficient in most cases, even in parsing systems that do not explicitly build the entire parse tree. The method complements previous work in its capabilities and advantages. The system has been implemented and integrated into a compiler generator system.  相似文献   

14.
一种层次化的LSD规则体系及其分析算法   总被引:1,自引:0,他引:1  
本文提出了一种基于词汇属性结构描述和规则继承的层次化LSD规则体系,讨论了该规则体系下的规则搜索策略和词汇化规则索引的实现方法,并在此基础上首次给出了LSD文法的非确定性分析算法。该规则系统具有从传统属性文法到现代词汇文法的可伸缩性,同时较好地解决了线性规则库中复杂的规则交互问题。  相似文献   

15.
层级分类概率句法分析   总被引:3,自引:0,他引:3  
对已有的句法分析中引入知识的方法进行了归纳分析,认为多种句法分析方法都可被看作是基于特征标记的分类,然后分析了其中的欠分类和过分类问题.在此基础上,提出一种层级分类短语结构文法和一种层级分类概率句法分析方法(hierarchically classified probabilistic context-free grammar),并设计了一种通过对实例进行聚类来消除句法规则的分类歧义方法.还进一步将层级分类扩展到概率上下文相关句法分析方法,利用上下文相关性的层级分类来解决引入上下文相关时的数据稀疏性问题.通过上述一系列方法有效地克服了过分类与前分类之间的矛盾.  相似文献   

16.
Rekha  D.  Sangeetha  J.  Ramaswamy  V. 《The Journal of supercomputing》2022,78(2):2580-2596

The selection of text features is a fundamental task and plays an important role in digital document analysis. Conventional methods in text feature extraction necessitate indigenous features. Obtaining an efficient feature is an extensive process, but a new and real-time representation of features in text data is a challenging task. Deep learning is making inroads in digital document mining. A significant distinction between deep learning and traditional methods is that deep learning learns features in a digital document in an automatic manner. In this paper, logistic regression and deep dependency parsing (LR-DDP) methods are proposed. The logistic regression token generation model generates robust tokens by means of Napierian grammar. With the robust generated tokens, a deep transition-based dependency parsing using duplex long short-term memory is designed. Experimental results demonstrate that our dependency parser achieves comparable performance in terms of digital document parsing accuracy, parsing time and overhead when compared to existing methods. Hence, these methods are found to be computationally efficient and accurate.

  相似文献   

17.
Structured documents are usually processed by tree-based document transformers, which transform the document tree representing the structure of the input document into another tree structure. Event-based document transformers, by contrast, recognize the input as a stream of parsing events, i.e., lexical tokens, and process the events one by one in an event-driven manner. Event-based document transformers have advantages that they need less memory space and that they are more tolerant of large inputs, compared to tree-based transformers, which construct the intermediate tree representation.This paper proposes an algorithm which derives an event-based transformer from a given specification of a document transformation over a tree structure. The derivation of an event-based transformer is carried out in the framework of attribute grammars. We first obtain an attribute grammar which processes a stream of parsing events, by applying a deforestation method; We then derive an attribute evaluation scheme relevant to the event-based transformation. Using this algorithm, one can develop event-based document transformers in a more declarative style than directly programming over the stream of parsing events.  相似文献   

18.
汉语组块分析研究综述   总被引:2,自引:0,他引:2  
组块分析作为浅层句法分析的代表,既可以满足很多语言信息处理系统对于句法功能的需求,又可以作为子任务,在词法分析和完全句法分析以及语义分析中间架起一座桥梁,为句子进行进一步深入分析提供有力的支持,因此众多的研究将注意力集中于组块分析上。该文主要对组块的定义和分类、组块识别方法、组块的标注和评测以及组块内部关系分析等几方面的研究进展进行详细的综述。最后,探讨了组块分析存在的问题并对未来的发展方向进行了展望。  相似文献   

19.
从汉语格关系表示生成日语   总被引:3,自引:1,他引:3  
本文介绍了一个基于转换翻译的汉日机器翻译系统中日语生成子系统的设计和实现。文章首先描述了一种基于格关系的汉语依存分析树,分析树结点记录语法语义以及格关系信息;然后,针对日语的特征,分析了日语生成中的主要问题,包括译词选择、用言活用形确定、助词添加等;给出基于规则的日语生成系统的组织结构,重点介绍生成规则系统的设计和实现。最后,给出规则描述的实例以及翻译实例,提出进一步改进本系统的初步想法。  相似文献   

20.
现有的命名实体识别算法多半采用统计与规则相结合的办法,但是这些方法有的没有考虑全局信息,有的没有解决好统计模型的时间复杂性问题.提出一个简约语法规则和最大熵模型相结合的混合命名实体识别方法,该方法采用简约语法规则与最大熵模型级联,首先使用简约语法规则模型进行识别,降低了使用复杂语法规则的时间复杂度,并把它的输出进行部分匹配,很好的弥补了由于简约语法规则带来的召回率偏低的问题,然后将得到的中间结果作为输入传递给最大熵模型,再由最大熵模型进行识别,得到最终的识别结果.实验结果表明,在MUC-7的命名实体识别评测中,系统的准确率、召回率和F值分别达到了94%,91%和92.48%,与已有的系统相比在性能上有很大的提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号