首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术.针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果.充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成.  相似文献   

2.
陆剑江  钱培德 《计算机工程》2003,29(6):34-35,152
主要介绍了面对万维网上各种各样的诸如文本、声音、图形和图像等语料信息,如何按照用户的实际需求将其中对用户有用的信息抽取出来,从而实现对现有语料信息的一种有效分离。重点介绍了Web信息簇聚性的特点和语料库的设计,以及语料库的实际工作原理。  相似文献   

3.
一种高效Web数据抽取包装器的设计与实现   总被引:1,自引:0,他引:1  
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术.详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果.充分体现了此Web包装器的可行性、高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成.  相似文献   

4.
在对Web应用挖掘的基本步骤作系统性研究的基础上,设计了一个Web应用挖掘可视化系统.该系统能够对用户访问Web时服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣,并对所得出的结果进行可视化的处理.为了识别用户浏览模式利用Apriori算法对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行了挖掘.采用Web图可视化了Web站点的拓扑结构以及各节点访问计数和登录计数信息.Web图的新颖之处在于两点:首先,为了将Web拓扑结构映射到Web图上,利用了站点拓扑结构数据和站点应用数据;其次,在绘制表示用户登录计数的信息层时允许通过使用动态布局的方法,以及为每一层的节点重新分配360度周长的方法来解决节点之间的冲突问题.文中较详细地阐述了该系统对Web应用数据挖掘可视化界面布局的具体措施.  相似文献   

5.
可视化技术的发展能够帮助我们加深对大规模复杂数据和信息间相互关系的理解,因此人们针对不同领域开发出各种功能的可视化系统。以高等级生物安全实验室协同工作平台CBL项目为背景,根据生物安全实验室环境监控和生物安全知识库的可视化需求,设计并开发了CBL信息可视化系统。该系统采用基于Web的B/S三层架构,利用MVC设计模式,根据需求分别采用合适的可视化模型开发可视化组件,并根据可视化界面与用户交互的不同方式采用相应的Web客户端技术,方便用户更加高效地获取和理解信息。  相似文献   

6.
Web数据抽取技术研究进展   总被引:8,自引:0,他引:8  
由于Web上存在着大量有用而复杂的信息,近年来学术界和企业界开发了许多从Web中抽取数据的方法和工具。本文总结了Web数据抽取技术的研究进展和从Web中抽取数据的主要原理、过程、方法和抽取规则,并讨论了未来的研究方向。  相似文献   

7.
基于扩展标记图的Web信息抽取器   总被引:2,自引:0,他引:2  
王亮  朱征宇 《计算机工程》2005,31(8):159-161,191
介绍了一种新的Web信息抽取器,该抽取器基于扩展标记图模型,实观了数据和模式的分离,应用于Web检索系统中,能够有效地支持标记级实时信息检索、抽取和重组。还介绍了其在Web信息检索系统PowerSearcher中的实际应用。  相似文献   

8.
基于Web的煤矿三维可视化控件设计与实现   总被引:2,自引:0,他引:2  
在人工免疫系统进行实时监测时,检测器集合的大小和漏检率的高低关系到检测的效率和精度,尽管希望构造一个完整的有效检测器集合,但是由于“洞”的存在,总会有一些非自身字符串无法被检测到,文章在分析“洞”的存在原因的基础上,使用不同匹配长度检测器的集合,提出了复合检测器集生成算法,与其它算法相比计算复杂性降低,同时可以使系统的检测精度大幅提高。通过对Web可视化的三种技术方法的优缺点比较,结合数字矿山的具体实施,提出了基于Web的煤矿三维可视化控件的三层浏览器/服务器体系结构,重点解释了ActiveX和OpenGL关键技术下三维数据几何建模和拓扑关系生成,最后给出了实例。  相似文献   

9.
多信息块Web页面中的抽取规则   总被引:4,自引:0,他引:4  
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block)Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息。  相似文献   

10.
基于Web的可视化研究与实现   总被引:3,自引:0,他引:3       下载免费PDF全文
本文研究了基于Web可视化的参考模型,设计、实现了两种可视化Web服务器(VWS)原型架构:VRML可视化服务器和基于CORBA的可视化服务器。  相似文献   

11.
张鑫  陈梅  王翰虎  王嫣然 《微机发展》2011,(2):58-61,65
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。  相似文献   

12.
导航型网页中往往包含了大量的噪声信息,为自动提取网页中的关键词带来了较大的困难。 为此,提出一个新的网页表示模型PIX-PAGE和导航型网页关键词自动抽取算法P-KEA。PIX-PAGE模型利用提出的区域合并算法,将一张网页分割为适当粒度的区域;然后,依据人类视觉特点,对各区域进行视觉“奇异性”量化,同时利用奇异性传递规则进一步强化关键词相关区域的视觉“奇异性”。P-KEA根据PIX-PAGE模型模型的视觉量化结果,能够较准确地找到视觉突出区域中的关键词。实验结果表明,与基于DocView模型的算法DVM相比,P-KEA的准确率平均提高了20.9%。  相似文献   

13.
Web2.0是当前互联网新的发展形态。由网民提供内容为主,更加注重人际互动和社交化的网站被称为web2.0网站。Web2.0网站在视觉设计上有很多显著的设计创新,体现在版式、导航、配色、字体、图形等方面,这些设计新形式综合发展出一种新的更为简洁的、视觉上更具易读性的网站视觉风格。这是网络互动技术达到新的里程碑的产物,也是互联网模式和理念变化的结果。  相似文献   

14.
基于Web服务的可视化作战想定生成系统设计与实现   总被引:1,自引:0,他引:1  
设计一个基于Web服务的可视化作战想定生成系统,该系统实现了与具体仿真系统的松散耦合,能够跨越C4ISR系统、作战仿真应用、想定生成系统等仿真系统底层数据结构的异构性,快速重用分布仿真系统的想定资源,提高想定开发效率,并使仿真系统之间的互操作更加灵活。  相似文献   

15.
表单元素是信息系统中最常见的元素,并且表单元素与信息系统中的业务具有很高的相关性。传统的表单开发方法是将定制好的表单以硬编码的方式固化在系统中,这种方式导致表单维护成本相对较高。提出一种基于Web的表单可视化定制方式,对其可视化定制原理、方法和实现过程进行研究。  相似文献   

16.
基于智能客户端的工作流模型设计器   总被引:2,自引:0,他引:2  
工作流模型是工作流管理系统的基石.但目前缺少针对网络环境下支持偶尔连接和智能部署的轻量级模型设计器,同时针对模型的仿真评估也较薄弱.首先结合WfMC过程定义元模型,分析了基本的工作流模式,设计了相应的元模型符号,给出了工作流模型的关系模式;然后以微软的.NET框架为基础,提出了一个面向服务的体系结构,并利用C#、Web服务和GDI+等智能客户端的实现技术实现了一个针对基本工作流模式的图形化、支持偶尔连接和易部署的轻量级工作流模型设计器;最后给出了评价工作流模型性能好坏的关键性能指标,并给出r相关分析结果.  相似文献   

17.
基于重复模式的Web信息抽取   总被引:2,自引:1,他引:1  
网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录。  相似文献   

18.
基于重复模式的自动Web信息抽取   总被引:3,自引:2,他引:1       下载免费PDF全文
互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需要人工干预。对10个在线购物网站进行了测试,实验结果表明提出的方法是有效的。  相似文献   

19.
面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性,通过对论坛网站和新闻评论网站的信息抽取实验,验证了该框架的有效性。然后,针对视觉特征提取时间代价过高导致信息抽取效率较低的问题,该文使用WEMLVF,分别提出基于XPath和基于经典包装器归纳算法SoftMealy的自动生成信息抽取模板的方法。这两种方法使用视觉特征自动生成信息抽取模板,但模板的表达并不包含视觉特征,使得在使用模板进行信息抽取的过程中无需提取网页的视觉特征,从而既充分利用了视觉特征在信息抽取中的作用,又显著提升了信息抽取的效率,实验结果验证了这一结论。  相似文献   

20.
基于动态异构的Web信息集成网页分析方法   总被引:1,自引:0,他引:1  
将动态异构的Web信息资源进行抽取以统一的方式供用户查询和使用,是当前迫切需要解决的问题。介绍了分析相关Web页面的方法和经验,实现了自动提交HTML表单获得所需页面和对页面的信息抽取。最后,实验证明了此方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号