首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
采用树自动机推理技术的信息抽取方法   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了一种利用改进的k-contextual树自动机推理算法的信息抽取技术。其核心思想是将结构化(半结构化)文档转换成树,然后利用一种改进的k-contextual树(KLH树)来构造出能够接受样本的无秩树自动机,依据该自动机接收和拒绝状态来确定是否抽取网页信息。该方法充分利用了网页文档的树状结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则。实验证明,该方法与同类抽取方法相比,样本学习时间以及抽取所需时间上均有所缩短。  相似文献   

2.
针对现有基于网页结构信息抽取技术的不足,提出一种基于确定性树自动机DTA(deterministic tree automaton)的信息抽取技术。其核心思想是通过将HTML文档转换成二叉树的形式,然后依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽取。该方法充分利用了HTML文档的树状结构。依托树自动机将传统的以单一结构途径的信息抽取与文法推理两者相结合。经实验证明与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高。  相似文献   

3.
基于网页结构树的Web信息抽取方法   总被引:10,自引:1,他引:9  
陈琼  苏文健 《计算机工程》2005,31(20):54-55,140
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。  相似文献   

4.
针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法.将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA(非确定型有穷自动机)达到抽取论坛信息的目的.该方法运用构造后缀树的技术来抽取论坛信息,较好地解决了现有的抽取方法准确性较差、通用性不强的问题.实验结果表明,该方法具有较高的准确性和实用性.  相似文献   

5.
网页视图的重构与转化   总被引:1,自引:0,他引:1  
兰东俊  朱精南 《计算机应用》2003,23(Z2):158-159
文中提出一种用于描述网页结构化信息的数据模型--区域树模型和一种便于计算机处理,表示网页信息中间数据结构--标记树.讨论了从网页文本生成网页的标记树和区域树的过程和方法,以及使用网页结构化信息对网页视图进行重构和转化.网页版面重构解决了PAD,SMART PHONE等智能终端上网浏览Web信息中遇到的一系列的问题.  相似文献   

6.
网页数据自动抽取系统   总被引:6,自引:0,他引:6  
在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOMbasedAutomaticExtraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等。  相似文献   

7.
随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。  相似文献   

8.
随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。  相似文献   

9.
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法.该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板.对不同类型网站实验表明,该方法获得快速和较高准确度的效果.  相似文献   

10.
一种全自动生成网页信息抽取Wrapper的方法   总被引:6,自引:2,他引:4  
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。  相似文献   

11.
P-集合(packet sets)具有动态特性,它是由内P-集合XF与外P-集合XF构成的集合对(XF,XF)。基于具有内动态特性的信息系统,应用内P-集合,提出(F,F-)-信息概念;讨论(F,F-)-信息的辨识与过滤。给出(F,F-)-粒度与(F,F-)-过滤系数概念,得到(F,F-)-信息辨识方法与辨识准则,以及(F,F-)-信息过滤定理与过滤准则,并给出(F,F-)-信息的辨识-过滤应用。(F,F-)-信息辨识与过滤的讨论结果为研究具有内动态现象的信息过滤-发现提供了一种新方法。  相似文献   

12.
本文是在作者已经发表的文[1],[2],[3],[4]的基础上,分别对空值环境下的4NF,5NF进行了讨论。给出了空值环境下的4NF,5NF的相应定义和有关概念,研究了相关的理论,还给出了分解为(N)4NF的分解算法。  相似文献   

13.
Despite a large body of multidisciplinary research on helpful and user-orientedinterface design, help facilities found in most commercial software are so ill-conceived thatthey are often unhelpful. From a wide spectrum of disciplines and software tools, we presentan extensive review of related work, identifying their limitations as well as their most prom-isingaspects. Using this material, we attempt to recapitulate the necessary requirements foruseful help systems.  相似文献   

14.
The theory of (n) truth degrees of formulas is proposed in modal logic for the first time. A consistency theorem is obtained which says that the (n) truth degree of a modality-free formula equals the truth degree of the formula in two-valued propositional logic. Variations of (n) truth degrees of formulas w.r.t. n in temporal logic is investigated. Moreover, the theory of (n) similarity degrees among modal formulas is proposed and the (n) modal logic metric space is derived therefrom which contains the classical logic metric space as a subspace. Finally, a kind of approximate reasoning theory is proposed in modal logic. Supported by the National Natural Science Foundation of China (Grant Nos. 10331010 and 10771129), and the Foundation of 211 Construction of Shaanxi Normal University  相似文献   

15.
The classical theory of individual classes of planar curves is a well-known field between Elementary, Differential, and Algebraic Geometry. With the present expository paper we want to point out the fact that an extension of this field to two-dimensional real Banach spaces, also called normed or Minkowski planes, is still missing. We want to show that until now only a few topics from this natural and rich geometric field were extended to Minkowski planes, and that, moreover, even in these directions only partial results exist. We present these known results, give open problems and show possible directions of future research. It is our goal to verify that classical curve theory in Minkowski planes can be nicely developed to become a very wide and interesting research subject in the spirit of different modern fields, like Differential Geometry, Functional Analysis, Computational Geometry and related directions.  相似文献   

16.
一种基于划分的孤立点检测算法   总被引:7,自引:0,他引:7       下载免费PDF全文
孤立点是不具备数据一般特性的数据对象.划分的方法是通过将数据集中的数据点分布的空间划分为不相交的超矩形单元集合,匹配数据对象到单元中,然后通过各个单元的统计信息来发现孤立点.由于大多真实数据集具有较大偏斜,因此划分后会产生影响算法性能的大量空单元.由此,提出了一种新的索引结构--CD-Tree(cell dimension tree),用于索引非空单元.为了优化CD-Tree结构和指导对数据的划分,提出了基于划分的数据偏斜度(skew of data,简称SOD)概念.基于CD-Tree与SOD,设计了新的孤立点检测算法.实验结果表明,该算法与基于单元的算法相比,在效率及有效处理的维数方面均有显著提高.  相似文献   

17.
虚拟计算环境中的可扩展分布式资源信息服务   总被引:1,自引:0,他引:1  
张一鸣  李东升  卢锡城 《软件学报》2007,18(8):1933-1942
基于网络资源的"成长性"、"自治性"和"多样性",近年来,人们提出以通用DHT(distributed Hash table)信息服务的形式实现网络资源信息的发布和查询.然而,现有的资源信息服务在通用性、易用性和自适应性等方面仍存在不足.针对虚拟计算环境iVCE(Internet-based virtual computing environment)的资源聚合需求,提出构建可扩展的分布式资源信息服务SDIRIS(scalable distributed resource information service).首先,提出采用自适应DHT(adaptive FissionE,简称A-FissionE)底层架构,以对上层应用透明的方式适应不同的系统规模和稳定性;其次,基于自适应DHT提出高效的多属性区间搜索算法(multiple-attribute range FissionE,简称MR-FissionE).理论分析和模拟结果表明,SDIRIS能够高效地实现资源信息的发布与查询功能.  相似文献   

18.
互连网络是超级计算机的重要组成部分.互连网络在很大程度上决定着超级计算机的性能.在1989年,S.B.Akers等提出了互连网络的群论模型,据此模型设计出了星网络、冒泡排序网络等一大批网络.尤其是星网络具有很多很好的性能,被认为是超立方体的替代品.但它们都有一个弱点:网络规模(结点数)为n!.即随着n的增大,n!增速太快,使得据此网络结构设计出的超级计算机升级较为困难,即扩展性较差.在群论模型的基础上提出了互连网络的多部群论模型,进而,据此模型设计出(n,k)-多部星网络、(n,k)-多部冒泡排序网络等多种网络.并证明星网络是(n,1)-多部星网络,而且(n,k)-多部星网络做到了规模(结点数)增大且增幅固定、直径增大缓慢、结点度不变,即有很好的可扩展性,其它(n,k)-多部网络也有类似的性能.  相似文献   

19.
低代价最短路径树的快速算法   总被引:21,自引:0,他引:21       下载免费PDF全文
王涛  李伟生 《软件学报》2004,15(5):660-665
低代价最短路径树是一种广泛使用的多播树.它能够在保证传送时延最小的同时尽量降低带宽消耗.在DDSP(destination-driven shortest path)算法的基础上,通过改进节点的搜索过程,提出了快速低代价最短路径树算法FLSPT(fast loW-coSt shortest path tree).该算法构造的最短路径树与DDSP算法构造的树具有相同的性能,但其时间复杂度低于DDSP算法.随机网络模型的仿真结果表明,FLSPT算法效率更高.  相似文献   

20.
In this paper, we introduce the concept of (F, K, b)-vex sets in vector spaces which is a generalization of (E-b)-vex sets given by Mishra, Mohapatra and Youness. Some properties of (F, K, b)-vex sets are investigated.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号