首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
多信息块Web页面中的抽取规则   总被引:4,自引:0,他引:4  
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block)Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息。  相似文献   

2.
近几年来,各种类型的灾难性事件频繁发生,对人民的生活均产生了极大影响,因此,人们对灾难事件的关注程度也越来越高。以三类灾难性追踪事件作为研究对象,分析相关事件报道之间的连续性、多角度性等文本特点,采用基于规则匹配的方法对灾难性追踪事件的相关文档进行信息抽取。实验结果表明,提出的信息抽取方法具有相对较高的准确率。  相似文献   

3.
基于规则归纳的信息抽取系统实现   总被引:2,自引:0,他引:2  
面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息的自动检索。在用于抽取规则归纳的框架下,还重点对用于生成抽取模式的WHISK学习算法进行了实验对比分析,结果表明系统对于单槽和多槽数据都具有不错的归纳学习能力。  相似文献   

4.
针对Web信息抽取主要依据内容进行抽取的思想,通过对基于本体的Web信息抽取技术的分析,在对网页进行预处理的过程中引入网页分块思想。通过网页分块技术准确提取出所需信息的抽取区域,再根据本体抽取规则对得到的抽取区域进行处理,最终得到需要的信息。实验验证了改进的基于本体的Web信息抽取算法具有更高的准确率和召回率,具有良好的应用前景。  相似文献   

5.
针对基于Web页面信息本体的信息抽取中,需人工根据待抽信息项的概念和对应的实例值来建立本体的缺点,设计一个页面信息本体的自动学习方法。论文利用前期在基于DOM的页面相似路径归纳学习算法和基于PAT-tree的自动关键词识别算法上的研究成果,使用改进的TF.IDF统计方法和复合事件的关联规则算法完成概念和概念间关系的学习,建立页面信息本体,减少建立本体的人工工作量。  相似文献   

6.
随着Internet的发展,Web挖掘技术越来越重要,其中的Web信息抽取技术逐渐成为热点,逐渐成为Web挖掘技术的关键技术之一,对Web信息抽取技术的深入研究也为构建更好的面向主题的搜索引擎提供了思路.文中对Web信息抽取的现有技术以及现有技术存在的问题进行了详细的论述.根据Web信息抽取的原理,依据软件工程的观点对Web信息抽取技术提出了具有指导意义的8条启发式规则.在这些规则的指导下,着重阐述了Web信息抽取中的基于结构和内容的信息抽取.通过理论分析及相应的实验说明所提出的8条规则对Web信息抽取具有良好的指导意义.  相似文献   

7.
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。  相似文献   

8.
随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息。最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果。  相似文献   

9.
论文元数据信息的自动抽取   总被引:16,自引:1,他引:16  
为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者、摘要和关键字等元数据信息。在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文元数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。  相似文献   

10.
基于关键词驱动的信息抽取系统的每个关键词都必须对应着相应的抽取规则。为了确保信息抽取系统具有较好的可移植性,设计了一种信息抽取规则描述语言。它由1-N条规则表达式构成。每条规则表达式由测试规则和提取规则两部分构成。它具有很强的描述能力和较高的处理效率,能满足信息抽取的实际需要。  相似文献   

11.
This paper presents an infrastructure and methodology to extract conceptual structure from Web pages, which are mainly constructed by HTML tags and incomplete text. Human beings can easily read Web pages and grasp an idea about the conceptual structure of underlying data, but cannot handle excessive amounts of data due to lack of patience and time. However, it is extremely difficult for machines to accurately determine the content of Web pages due to lack of understanding of context and semantics. Our work provides a methodology and infrastructure to process Web data and extract the underlying conceptual structure, in particular relationships between ontological concepts using Inductive Logic Programming in order to help with automating the processing of the excessive amount of Web data by capturing its conceptual structures.  相似文献   

12.
Learning Information Extraction Rules for Semi-Structured and Free Text   总被引:47,自引:0,他引:47  
Soderland  Stephen 《Machine Learning》1999,34(1-3):233-272
A wealth of on-line text information can be made available to automatic processing by information extraction (IE) systems. Each IE application needs a separate set of rules tuned to the domain and writing style. WHISK helps to overcome this knowledge-engineering bottleneck by learning text extraction rules automatically.WHISK is designed to handle text styles ranging from highly structured to free text, including text that is neither rigidly formatted nor composed of grammatical sentences. Such semi-structured text has largely been beyond the scope of previous systems. When used in conjunction with a syntactic analyzer and semantic tagging, WHISK can also handle extraction from free text such as news stories.  相似文献   

13.
Web信息的自主抽取方法   总被引:12,自引:0,他引:12  
许建潮  侯锟 《计算机工程与应用》2005,41(14):185-189,198
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。  相似文献   

14.
研究面向文本的事件信息抽取工作,建立一个事件信息抽取系统。该系统首先过滤包含关键字的原始语料;然后采用层次聚类(Hierarchical,HCL)和最长公共子序列算法相结合的方法抽取事件信息,得到最初的模式;最后通过是否包含关键字进行模式获取,进而提取信息,最终得到事件要素。  相似文献   

15.
面向中文信息处理的复句关系词提取算法研究   总被引:1,自引:1,他引:1       下载免费PDF全文
关系词语对于标明复句关系有重要的作用。在用计算机来实现汉语多重关系复句的关系层次分析的过程中,关系词语的提取和标引是首要的任务。本文针对利用计算机处理汉语复句的研究需求,结合词性标记和关系词搭配理论,提出了一种关系词提取算法——正向选择算法。通过测试可知,关系词提取的正确率达到89.88%,这表明了算法的有效性以及用于利用计算机处理汉语复句的可行性。  相似文献   

16.
视频数据的不断丰富以及人们对视频检索的要求越来越复杂,使得视频语义信息建模和高层语义概念提取逐渐成为视频检索中的重要组成部分.本文提出一种基于本体的视频语义概念检测方法,利用贝叶斯网络构造视频中概念语义关系的检测本体,构建了视频中概念之间的层次关系,并能够通过推理完成复合语义概念的检测.该方法从语义信息学的角度对视频内容进行分析,在一定程度上削弱了语义鸿沟的影响,并且取得了较好的查询结果.  相似文献   

17.
杜柏阳  孔祥玉  罗家宇 《自动化学报》2021,47(12):2815-2822
并行主成分提取算法在信号特征提取中具有十分重要的作用, 采用加权规则将主子空间(Principal subspace, PS)提取算法转变为并行主成分提取算法是很有效的方式, 但研究加权规则对状态矩阵影响的理论分析非常少. 对加权规则影响的分析不仅可以提供加权规则下的主成分提取算法动力学的详细认知, 而且对于其他子空间跟踪算法转变为并行主成分提取算法的可实现性给出判断条件. 本文通过比较Oja的主子空间跟踪算法和加权Oja并行主成分提取算法, 通过两种算法的差异分析了加权规则对算法提取矩阵方向的影响. 首先, 针对二维输入信号, 研究了提取两个主成分时加权规则的信息准则对状态矩阵方向的作用方式. 进而, 针对大于二维输入信号的情况, 给出加权规则影响多个主成分提取方式的讨论. 最后, MATLAB仿真验证了所提出理论的有效性.  相似文献   

18.
事件抽取是信息抽取领域的一个研究热点。在新冠肺炎疫情常态化下,利用事件抽取技术可以筛选出有价值的信息。然而事件抽取领域缺乏精标注的新冠新闻训练数据集,且因部分事件的复杂性,论元不只存在于一句话中,需要多个句子才能完整描述一个事件。因此,首先构建新冠肺炎新闻数据集,接着提出一种三阶段的管道方法实现从篇章中抽取新冠肺炎事件。该方法对数据集进行事件类型分类;进行事件句的抽取;实现篇章级论元抽取。实验结果表明提出的方法能够减少事件分类时间,抽取两个事件句的条件下,对数据通报类论元识别效果最好,准确率、召回率和F1值达到75.0%、73.0%,和74.0%,证明方法能有效抽取新冠肺炎相关篇章级事件。  相似文献   

19.
一种基于神经网络规则提取的新方法   总被引:1,自引:0,他引:1  
提出了一种基于神经网络对信息系统进行规则提取的新方法。首先用粗糙集对信息系统进行属性约简,然后把条件属性作为输入,决策属性作为最后输出对多层神经网络进行训练。由相关定理对神经网络的运行结果做了理论分析,并以分析结果作为规则提取的重要依据。实验结果验证了新算法的有效性。新算法与几种传统算法相比规则提取的准确率有很大的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号