首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
随着Internet的飞速发展及Web在全球的进一步普及,WWW上的信息量呈指数级增长。面对这一情形,研究人员开始将数据挖掘技术用于Web,从而产生了一个新的研究方向——Web挖掘。Web挖掘即是对Web文档的内容、可利用的Web资源的使用情况以及Web资源间的关系进行分析。本文分析了Web页面的半结构化特点,介绍了国内外学者针对Web页面的半结构化特点提出的用于从Web页面中提取数据的构建包装器方法。在Web数据提取领域,包装器一般就是一个从Web页面中提取数据的程序。同时介绍了作者本人的一些工作,包括一个新闻下载浏览模块和一个信息…  相似文献   

2.
针对Web中数据密集型的动态页面,文本数据少,网页结构化程度高的特点,介绍了一种基于HTML结构的web信息提取方法。该方法先将去噪处理后的Web页面进行解析,然后根据树编辑距离计算页面之间的相似度,对页面进行聚类,再对每一类簇生成相应的提取规则,对Web页面进行数据提取。  相似文献   

3.
为了有效地在Web上进行数据信息的提取,实现Web数据的清理与集成,针对发布批量格式化数据的网页类型,提出了利用XML和JTidy自动从Web页面批量提取数据信息的方法.根据该类网页的特点,基于开发一种通用程序的思想,对页面标签结构进行分析与分类,讨论了识别数据元素和对数据元素进行分组等提取过程中的难点,在此基础上建立了总体扫描与提取的算法.实验结果表明了批量提取信息方法的可行性与有效性.  相似文献   

4.
在定义模板的基础上,提出了页面创建模型。该模型描述了如何使用模板将来自于后台数据库的值编码生成页面。基于这个模型,设计了一个基于最大频繁等价粪的抽取算法EBMFEC,通过分析给定的数据导向型页面的终端符号的出现情况,找出最大频繁等价类,并推导出用于生成页面的未知模板。然后使用推导出的模板,从输入页面中提取出相关信息。在大量实际HTML页面上的实验证明,EBMFEC在大部分情况下都可以从给定页面中推导出模板,并正确抽取出数据信息。  相似文献   

5.
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术。采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示。运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据。通过分布式集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的可行性。通过页面解析流程实验分析,基于Nutch的分布式爬虫与其他爬虫多组实验数据对比结果表明,基于Nutch的分布式爬虫项目在性能和准确度方面都优于传统其他爬虫。  相似文献   

6.
针对从Web页面获取信息的广泛需求,分析了从中提取信息的关键技术如URL地址、HTML页面和HtmlParse解析库;以从Google Map中获取企业黄页信息为例,根据从中自动提取数据的技术和步骤,设计和实现了该系统原型,并指出的相关问题及其解决办法.  相似文献   

7.
ASP.NET页面间数据传递方法的研究与实现   总被引:3,自引:0,他引:3  
邱晓荣 《福建电脑》2008,24(4):155-156
本文分析了基于ASP.NET的系统开发中常用的Web页面间数据传递的方法,对各种方法的优缺点进行了详细地分析和对比.并给出了相应的实现代码。  相似文献   

8.
李强 《软件》2023,(1):168-170
本文分析了基于Python的新闻聚合系统网络爬虫,指的是根据Python的网络爬虫构建新闻聚合系统,利用爬虫获取新闻聚合系统的新闻数据,不同网站的页面布局是不同的,因此需要创建开源爬虫,可以在不同页面布局中获取数据。在网络爬虫开发过程中需要利用Python语言,而网络爬虫Web提取工具为BeautifulSoup,Web应用程序框架为Laravel,选用的后端语言为PHP。网络爬虫可以根据用户配置文件提取不同页面布局的数据,并且可以向数据库系统中导入提取的数据。  相似文献   

9.
设计和实现了从互联网页面到手机页面的适配转换机制,提出了基于树结构分析的Web页面适配方法,该适配方法首先对互联网页面建立对应的文档模型树结构,依据用户硬件数据信息,对这棵树进行网页去噪声、对Frameset/Iframe适配、分页重排、智能缓存以及多国语言字符集支持的操作,最终得到XHTML MP页面,完成了Web页面到手机页面的转换。通过实验,验证了整个页面适配过程和方法的可行性。  相似文献   

10.
基于Web信息组织模型的元数据检索技术   总被引:1,自引:0,他引:1  
高玉珠  刘瑞 《计算机应用》2006,26(Z1):89-90
针对目前互联网搜索引擎主要使用全文检索技术,无法从Web页面中提取元数据信息情况,设计了一个基于信息组织模型的Web元数据信息提取和检索系统.使用基于正则表达式的元数据信息提取模型,信息提取和索引程序不断从数量巨大的Web页面中提取元数据信息,对本地元数据库进行不断地更新.抽象了多种Web信息组织模型,设计了相应的信息检索模型,并且这些模型可以大范围地应用于提取Web站点的元数据,所采用的方法充分利用了Web页面的数据结构,避免了采用复杂的语法、语义分析,为面向多个领域的元数据信息检索做出了一定的研究和探索.  相似文献   

11.
贾丽  许静  金鑫  田禾 《计算机工程》2010,36(5):46-48,51
设计一种基于XML描述和网页结构分析的Web功能自动化测试系统,利用控件约束规则自动生成测试数据和测试用例,记录用户在所有页面中进行的有序操作,并用XML语言描述。参照工作流的定义规则定义测试流。通过采用测试流和自动生成的测试数据,系统可以模拟用户手工测试,从而实现自动化测试,提高测试效率。  相似文献   

12.
吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

13.
贾丽  许静  金鑫  田禾 《计算机工程》2010,36(5):46-48,5
设计一种基于XML描述和网页结构分析的Web功能自动化测试系统,利用控件约束规则自动生成测试数据和测试用例,记录用户在所有页面中进行的有序操作,并用XML语言描述。参照工作流的定义规则定义测试流。通过采用测试流和自动生成的测试数据,系统可以模拟用户手工测试,从而实现自动化测试,提高测试效率。  相似文献   

14.
如何准确、及时、全面地采集用户使用数据是Web使用挖掘的重要前提和基础。基于Web的基本结构,Web使用挖掘的数据源可以从web服务器端、应用服务器端、代理服务器端和客户端进行采集。文中分析了传统的基于Web日志进行Web使用挖掘所面临的问题,讨论了建立在用户浏览行为基础上的客户端数据采集技术,重点讨论了其中的JavaApplet技术。通过JavaApplet技术可以获取客户端IP,可以自动完成用户浏览信息的准确采集,可以广泛用于各类网站的个性化和智能化服务、站点结构改进、商业智能等。  相似文献   

15.
电子商务的蓬勃发展使得越来越多的采购商们倾向于利用互联网络进行采购。然而,尽管大部分商业网站都提供了详细周全的产品查询功能,但是当采购商们需要查询大量产品,譬如电子产品元器件,来进行采购时,往往费时费力。而网页这种适宜人类用户进行查询浏览的界面形式并不适合程序来自动处理,一个原因就是网页结构的变化会影响网页数据的抽取过程。本文利用网络服务的思想,使数据抽取通过网站提供的独立于网页的服务来完成,从而避免网页结构变化的影响。在剖析了表述性状态转移面向资源以及对资源进行操作的统一接口特性后,本文指出表述性状态转移用于网络服务的优势。基于这种思想,利用CXF框架和Spring技术构建一个表述性状态转移风格的服务平台,该平台向客户提供查询电子产品信息的网络服务。在此服务支持下,客户端程序可以利用XML解析工具方便地抽取所需要的数据信息。  相似文献   

16.
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法.通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据...  相似文献   

17.
Web数据挖掘(Web Data Mining),是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的模式或信息。Web结构挖掘即使用Web的结构来发现相关信息。介绍了Web数据挖掘及Wed结构挖掘的相关概念,以及.NET的框架结构,并举例与ASP.NET相结合来实现Web结构挖掘的功能。  相似文献   

18.
基于HTML模式代数的Web信息提取方法   总被引:3,自引:0,他引:3  
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的袁结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证.  相似文献   

19.
基于颜色Petri网的Web服务组合建模及应用*   总被引:1,自引:0,他引:1  
给出了用颜色Petri网来对Web服务及服务组合建模,在描述服务内部控制结构的同时兼顾了数据流的描述,而且还给出了模拟Web服务执行的引发规则,从静态、动态两方面描述了Web服务及服务组合,最后还给出了一个应用颜色Petri网建模的实例。  相似文献   

20.
使用Web Services技术可使多个信息源共同向客户提供信息,形成较理想的分布式应用。但源于多数据源的数据在格式上并不统一,如何处理这些异构数据成为需要解决的问题。UDDI是用于发现有用Web服务的技术,如果能将对异构数据源的描述信息加入其中,则有助于异构数据的处理。本文给出了一种可行的方法来实现这一目的,实验证明在基于Web的分布式系统中应用有较好效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号