首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
基于Web的包装器技术的现状与发展   总被引:1,自引:0,他引:1  
Web信息抽取技术已成为当前一个研究热点,信息抽取的主要工作由包装器来完成。根据包装器的原理,对现有的信息抽取技术进行了分类,并结合典型的系统讨论各抽取技术的特点,提出了以本体来构建包装器的规则模型。  相似文献   

2.
基于信息过滤后的Web内容挖掘   总被引:4,自引:0,他引:4  
Internet的迅速发展,使得worldwideweb已经成为一个巨大的、蕴含着具有潜在价值知识的分布式信息空间,为Web挖掘研究提供了丰富的资源的同时也提出了新的挑战。该文首先论述了Web内容挖掘技术的挖掘原理和所面对的困难,然后介绍了信息过滤技术的规则以及过程。最后提出了基于信息过滤的Web内容挖掘的系统方案,较好地解决了当前Web内容挖掘中准确度不高、冗余性大的缺陷。  相似文献   

3.
结合当前Web站点的数据特点,以信息项在页面中的出现位置为信息抽取的路径,利用PAT树技术,提出了一个多Agent协作的自动信息抽取模型.该模型能够自动分析样本页面数据特征,归纳学习整个站点的数据模式,生成抽取规则,指导以后的抽取动作.实验结果表明,该模型对Web页面的结构化信息抽取具有较高的效率.  相似文献   

4.
Internet信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需已日益突显出其重要性.文本挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web文本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战.介绍Web文本挖掘的一般流程,重点分析Web文本挖掘中的几种关键技术.  相似文献   

5.
随着Web上信息的快速增长,如何将潜藏于非结构化文档中的商业信息有效提取并分析服务于商业管理已成为新的研究热点。利用现有的Web信息挖掘技术,针对原始数据的混合异构性,提出信息块多主题分割的方法,在建立的商业领域实体名字典指导下对商业信息进行抽取和分类,并引入一种信用评级机制,构造了一个基于Web信息挖掘的商业信息分析系统(CABWIM),实验结果表明系统能有效地将散落在Web中游在的商业信息抽取并加工整理,形成真正有实用价值的商业信息。  相似文献   

6.
一种自动抽取Web信息方法的设计与实现   总被引:1,自引:1,他引:0  
针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略.此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度.并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库.基于此模型的方法能自主学习,实现自动抽取.这在很大程度上减少了人工参与,并能获得比较好的抽取结果.  相似文献   

7.
基于Web挖掘的网页清洗技术   总被引:1,自引:0,他引:1  
随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。  相似文献   

8.
随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上,分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。  相似文献   

9.
针对当前Deep Web信息检索中Web数据库返回的查询结果页面内容多样、形式各异、有效信息难以提取等不足,将信息抽取与数据融合技术加以改进,提出了对查询结果页面进行处理的技术.该技术通过对HTML页面解析、信息过滤、分块、剪枝、提取抽取规则,实现了有效信息的自动抽取.通过建立合并规则、去重规则、清洗规则,实现了数据的有效融合,并最终以统一的模式进行存储.最后,通过相关项目应用,验证了该技术的有效性和实用性.  相似文献   

10.
一种支持Web信息资源服务化的标记语言及其软件工具   总被引:1,自引:0,他引:1  
互联网上聚集了大量基于万维网技术的信息资源,随着SOA的流行,如何将信息资源封装成Web服务以便于自动聚合和广泛重用成为倍受关注的问题.提出一种Web信息资源服务化标记语言,并基于该语言实现了一个可视化、半自动的服务化工具Web2WS.Web2WS提供友好的操作界面辅助用户定义Web信息资源的访问规则、数据抽取规则,以及到目标Web服务的映射规则,可方便有效地将基于Web的信息资源封装成Web服务.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号