首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于框架语义标注的自由文本信息抽取研究   总被引:1,自引:0,他引:1       下载免费PDF全文
信息抽取是从自由文本语料库构建数据库,实现信息自动收集的有效途径之一。提出了一种以框架语义标注为基础构建信息抽取规则的信息抽取方法。基于框架语义标注的信息抽取是用统一的方法来指导信息抽取过程。这种方法具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于框架语义的BAIE(图书内容简介信息抽取)系统,并对图书的内容简介试行信息抽取。抽取结果表明,基于框架语义的信息抽取方式有一定的可行性和适用性。  相似文献   

2.
以网上书店为例,基于所发现的DeepWeb数据源,针对其查询接口,提出了一种基于领域知识的DeepWeb接口抽取方法,该方法采用正则表达式的规则提取查询接口,包括与控件相邻的文本语义词汇的提取和控件的提取,然而部分查询接口抽取出的文本语义信息比较繁琐,需借助页面中的字体颜色等特征,过滤非需要的信息,达到文中的目标。该方法获得了较好的结果,具有良好的可行性和实用性。  相似文献   

3.
基于Agent和XML的Web页面信息抽取研究与设计   总被引:4,自引:2,他引:4  
在以前相关研究的基础上,提出了一个建立在Agent和XML基础上的Web页面信息抽取的原型系统。在这个原型系统里,利用Agent的自治能力和合作能力来协助用户对抽取请求进行公式化表述和结合知识库学习抽取规则等。另外,系统还用XML语言描述抽取请求和抽取规则,在其中加入一些语义信息,这些语义信息可被有效利用,从而提高抽取的精确性。  相似文献   

4.
可重用本体模块的抽取是本体重用的一个关键环节。与传统工程应用中使用的基于本体层次的结构化方法抽取本体模块相比,使用逻辑的方法能充分利用本体提供的语义信息,抽取的本体模块更具完整性和正确性。在研究保守扩展的本体模块理论基础上,根据Grau B C提出的 SHOJQ 本地性规则,提出并证明了描述逻辑SHJF对应的语义本地性规则和句法本地性规则,为基于该规则抽取可重用本体模块提供了理论基础。  相似文献   

5.
针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法.将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA(非确定型有穷自动机)达到抽取论坛信息的目的.该方法运用构造后缀树的技术来抽取论坛信息,较好地解决了现有的抽取方法准确性较差、通用性不强的问题.实验结果表明,该方法具有较高的准确性和实用性.  相似文献   

6.
可重用本体模块的抽取是本体重用的一个关键环节.与传统工程应用中使用的基于本体层次的结构化方法抽取本体模块相比,使用逻辑的方法能充分利用本体提供的语义信息,抽取的本体模块更具完整性和正确性.在研究保守扩展的本体模块理论基础上,根据Grau B C提出的()本地性规则,提出并证明了描述逻辑()对应的语义本地性规则和句法本地性规则,为基于该规则抽取可重用本体模块提供了理论基础.  相似文献   

7.
鲁佳文  严丽 《计算机科学》2021,48(10):145-151
随着智能信息技术的发展,知识图谱已被广泛应用于智能搜索等各个领域.知识图谱中的信息一般采取RDF(S)的数据模型来表示.知识图谱的构建需要从大量的数据源抽取信息,而数据库是不可忽视的重要数据源.近几年,对象关系数据库得到了广泛的应用,且其中存储着丰富的语义信息,而基于对象关系数据库自动构建RDF(S)的研究却较少.因此,文中给出了对象关系数据库与RDF(S)的形式化定义,根据形式化定义将对象关系数据库中的语义信息进行抽取,提出了构建RDF(S)数据的映射规则.该映射规则不仅考虑了数据库的面向对象的语义,还考虑了数据库的约束,可以充分抽取数据库中包含的语义信息.最后实现了一个名为ORDB2 RDF的映射工具,验证了该映射规则的正确性与映射结果的语义完整性.  相似文献   

8.
事件抽取是信息抽取领域的一个重要研究方向。针对事件抽取获得的信息不完整、语义不明确、元素表达多样性及明显事件冗余等问题,提出基于统计的缺失数据填充算法,使丢失信息的事件完备化;同时提出基于规则和词典的事件元素规格化将不同表述的事件统一化,通过事件真伪辨别解决了语义不明确问题,修正抽取不正确的事件,并过滤掉明显冗余信息的事件。  相似文献   

9.
陈钊  李嘉 《计算机工程》2011,37(20):261-263
根据林产品贸易文本信息推送中信息结构化存储的需要,结合语义识别的基本原理和基于规则的信息抽取方法,提出一种基于规则的林产品贸易文本信息抽取方法,利用林产品贸易文本信息的特征,定义林产品贸易文本信息的文本层次识别规则,采用创建数据库和数据表匹配识别规则,给出识别规则匹配的正则表达式和文本内容截取识别规则,以抽取需要的特定事实信息,并以一种结构化的形式存储于数据库中。通过对实际林产品贸易网站的文本信息结构化抽取,证明该研究在林产品贸易信息推送中具有较好的应用价值。  相似文献   

10.
基于ATT&CK的APT攻击语义规则构建   总被引:1,自引:0,他引:1       下载免费PDF全文
从自然语言描述文本中提取网络攻击知识存在语义鸿沟,导致TTPs威胁情报自动化利用低。为提高威胁情报自动分析效率,设计并实现了基于ATT&CK的APT攻击语义规则。首先,构建带标签的有向图语义规则模型,对自然语言文本描述的攻击技术进行知识化描述;其次,定义语义规则,阐释网络实体属性及其逻辑运算关系的形式化描述方法;最后,利用关键词组识别、知识抽取等自然语言处理技术,从攻击技术文本中抽取形成123个APT攻击语义规则,涵盖ATT&CK的115项技术和12种战术。利用模拟场景采集的APT攻击日志数据,对语义规则进行验证,实验结果表明,语义规则检出率达到93.1%,并具备一定的攻击上下文信息还原能力,可有效支撑威胁检测分析。  相似文献   

11.
一种基于语义匹配的Web信息提取方法研究   总被引:1,自引:0,他引:1  
为了较好地解决信息过量难以消化、汉语词的歧义划分、Web信息形式不一致并且难以辨识的问题,文章提出了一种基于语义匹配的Web信息提取方法。该方法融合了网页分类、汉语分词、语义信息匹配方法,并给出了一种义素相似度,进而提出了一种基于语义的信息匹配方法来识别和提取网页信息项。基于这种Web信息提取方法的网上药品信息监管系统Web-MIND能够提取出网上药品广告的信息项,并具有较高的准确率。  相似文献   

12.
含有语义特征的网页新闻自动抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
施洋  张奇  黄萱菁 《计算机工程》2010,36(7):173-175
通过分析新闻网页的语义特征以及网页之间存在的通用性质,提出一种含有语义特征的网页新闻自动抽取方法,包括利用语义分类器识别新闻网页中的种子信息以及页面中的局部信息来完成抽取。在分类器中加入语义特征可以使F1值达到94.2%。在语义分类器与局部特征结合的情况下,F1值可以达到96.9%。实验结果证明,该方法能有效提高网页信息抽取算法的精度,降低机器学习所需要的标注成本。  相似文献   

13.
针对现有Web信息抽取技术存在的准确率不高,自动化程度较低以及通用性较弱等诸多不足,结合林产品贸易Web信息推送中对信息源进行结构化存储的需要,提出一种新的基于语义的林产品贸易Web信息抽取算法;充分分析并利用林产品贸易Web信息的特征,结合语义识别的基本原理,构建林产品贸易语义词典,同时利用所需抽取的目标信息在网页中的布局特征,结合信息熵理论提出了基于语义信息熵的目标信息自动定位抽取方法,以抽取需要的目标信息,并以一种结构化的形式存储于数据库中。通过实验对实际林产品贸易Web信息网页的抽取,证明了该算法能够降低人工干预,在林产品贸易信息推送中对信息源的处理具有较好的应用价值。  相似文献   

14.
Content in numerous Web data sources, designed primarily for human consumption, are not directly amenable to machine processing. Automated semantic analysis of such content facilitates their transformation into machine-processable and richly structured semantically annotated data. This paper describes a learning-based technique for semantic analysis of schematic data which are characterized by being template-generated from backend databases. Starting with a seed set of hand-labeled instances of semantic concepts in a set of Web pages, the technique learns statistical models of these concepts using light-weight content features. These models direct the annotation of diverse Web pages possessing similar content semantics. The principles behind the technique find application in information retrieval and extraction problems. Focused Web browsing activities require only selective fragments of particular Web pages but are often performed using bookmarks which fetch the contents of the entire page. This results in information overload for users of constrained interaction modality devices such as small-screen handheld devices. Fine-grained information extraction from Web pages, which are typically performed using page specific and syntactic expressions known as wrappers, suffer from lack of scalability and robustness. We report on the application of our technique in developing semantic bookmarks for retrieving targeted browsing content and semantic wrappers for robust and scalable information extraction from Web pages sharing a semantic domain. This work has been conducted while the author was at Stony Brook University.  相似文献   

15.
基于网页布局相似度的Web论坛数据抽取   总被引:1,自引:0,他引:1  
Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低的不足。该方法充分利用Web论坛网页布局结构上的特点,采用分级处理的方式,先识别出主题信息块、再利用待抽取数据的统计规律在主题信息块中完成抽取,整个过程不需要任何人工干预。实验结果表明,新方法对不同的BBS站点有很好的通用性,且具有较高的准确率和召回率。  相似文献   

16.
大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.  相似文献   

17.
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。  相似文献   

18.
语义Web搜索技术研究进展   总被引:6,自引:3,他引:3  
语义Web搜索技术是综合本体论、信息检索、自然语言处理等多学科理论和方法的新兴技术。介绍了语义Web和语义Web搜索的现状。在此基础上,给出了实现语义Web搜索技术的一般体系结构,并进一步分析了各组成模块的基本任务、现有技术和评价体系。最后给出了所做的相关工作和对语义Web搜索技术的展望。  相似文献   

19.
In this paper, we present an ontology-based information extraction and retrieval system and its application in the soccer domain. In general, we deal with three issues in semantic search, namely, usability, scalability and retrieval performance. We propose a keyword-based semantic retrieval approach. The performance of the system is improved considerably using domain-specific information extraction, inferencing and rules. Scalability is achieved by adapting a semantic indexing approach and representing the whole world as small independent models. The system is implemented using the state-of-the-art technologies in Semantic Web and its performance is evaluated against traditional systems as well as the query expansion methods. Furthermore, a detailed evaluation is provided to observe the performance gain due to domain-specific information extraction and inferencing. Finally, we show how we use semantic indexing to solve simple structural ambiguities.  相似文献   

20.
随着数据挖掘应用的深入,非结构化和半结构化数据的挖掘,将成为下一个数据挖掘应用的热点。文本挖掘是一种典型的非结构化数据挖掘,而Web挖掘则是典型的半结构化数据挖掘。所以将信息处理技术中的汉语分词、信息抽取、语义分析等技术应用到Web挖掘研究技术是必然的发展趋势。本文根据Web挖掘的特点,运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,以便使数据提取更加准确。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号