首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统.  相似文献   

2.
以w3c文档对象模型(DOM)为基础,利用元搜索引擎原理实现了一个互联网新闻自动抽取系统.该系统通过搜索引擎获取相关新闻的web页面,分析后得到其元数据,然后利用元数据表现出来的信息进行新闻正文抽取,该方法不依赖于原网页结构,不需要人工干预,是自动、可靠、通用的方法.试验表明,该抽取方法有着较高的准确率,平均可达到96%以上.  相似文献   

3.
4.
针对目前国内外多种信息抽取方法中存在不同程度的局限性,提出一种基于DOM树和二叉树结构的Web表格信息抽取方法.该方法提供了以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具.该工具将Html文档解析成DOM树,再将DOM树构建成一棵含有文本信息的二叉树,最后通过遍历二叉树实现对Web表格信息的抽取...  相似文献   

5.
随着互联网的普及,网络数据的增长速度也呈现出井喷的态势。通过搜索引擎获取网络信息,已成为人们获取信息的主要途径,因此,搜索引擎的搜索精度,就成了亟待研究的问题。本文首先研究了文本摘要领域国内外的研究现状,分析了目前该领域的研究成果,对各种算法进行了综合分析,然后针对科研网站这类多文本内容的网站,提出了一种基于统计的网站文本信息的抽取算法。该算法利用宽度优先搜索策略爬虫,获取网站的HTML源码,对源码的结构进行分析,将其解析成DOM树,最后再利用基于统计的方法将网站的文本信息抽取出来。通过验证,该算法可以较好地实现用于网站摘要的综合文本的抽取。  相似文献   

6.
为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性.  相似文献   

7.
8.
当网页结构发生动态变化时,所构建的网页数据抽取器Wrapper往往会失灵.为了解决这一问题,提出了Wrapper维护模型结构.实验证明,当网页数据结构发生变化时,该模型结构能更有效地支持网页数据的抽取.  相似文献   

9.
针对现有网络论坛信息抽取的不足,提出了一种基于重复模式发现算法的论坛信息抽取方法.该方法首先利用SgmlReader解析器将HTML文档转换为格式规范的XHTML文档,然后通过计算XHTML文档结构中DOM子树相似度,自动发现论坛页面结构的重复模式.该方法通过自动定位重复模式进行论坛信息抽取,较好地解决了在论坛信息抽取过程中需要人工查找、定位重复模式或者通过人工分析论坛页面代码定制抽取规则的问题.试验结果表明,该方法具有较好的准确性、通用性和实用性.  相似文献   

10.
针对网站开发设计需要,采用JDK的Applet技术和URLConnection网络技术,采用数据结构中的树型结构及相应算法,设计了网页树型菜单动态生成系统,解决了网站设计中动态菜单设计难的问题.实践应用表明,该系统可靠性、稳定性好,实用性强,满足动态网页设计需要。  相似文献   

11.
Research of Extracting Data from HTML Web Pages Automatically   总被引:2,自引:0,他引:2  
In order to use data information in the Internet,it is necessary to extract data from web pages.An HTT tree model representing HTML pages is presented. Based on the HTT model, a wrapper generationalgorithm AGW is proposed. The AGW algorithm utilizes comparing and correcting technique to generate thewrapper with the native characteristic of the HTT tree structure. The AGW algorithm can not only generate thewrapper automatically, but also rebuild the data schema easily and reduce the complexity of the computing.  相似文献   

12.
基于隐马尔可夫模型的招聘网络信息抽取   总被引:1,自引:0,他引:1  
网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。  相似文献   

13.
ActiveX技术与动态Web页面的开发   总被引:8,自引:0,他引:8  
通过对ActiveX技术和动态Web模型的介绍,展示了一种运用ActiveX技术,采用传统应用程序开发技术、结合现有的资源和条件,实现了动态Web页面开发的方法。  相似文献   

14.
针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了自动灵活地从Web上的海量数据中抽取有价值信息的效果.  相似文献   

15.
垂直搜索引擎需要对网页的内容进行提取,信息提取算法是研究的关键内容之一,文章提出一种新的基于行模式的索引网页的信息提取算法,该算法基于网页结构,具有较高的分析速度与准确率,使信息的分析与提取变得简单高效。  相似文献   

16.
网络技术的引用对未来教学模式、教学方式及方法将产生重大影响, 尤其是多媒体计算机辅助教学( MCAI) 的引入对传统的教育思想引起重大变革。MCAI在未来教学中将起到越来越重要的作用。本文就intranet 技术在现代教学中的应用, 提出了用网页制作MCAI的思想。  相似文献   

17.
目的为了有效地预测用户在信息检索过程中可能点击的检索结果,从而进行网页的智能推荐.方法采取网络日志挖掘的技术,通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相结合,以此作为网页推荐的依据.结果提出了一种检索推荐统计模型,并构建了相应的原型系统,实验表明该方法显著提高了推荐系统的准确率.结论这项技术有效地提高了推荐结果与用户信息需求的相关程度,使推荐系统的性能获得了较大地提高,可以很好的应用于信息检索的智能推荐服务领域.  相似文献   

18.
WDL:一种通用的基于XML的Web包装器描述语言   总被引:2,自引:0,他引:2  
通常使用Web包装器将HTML数据转化为XML格式的结构化数据.包装器描述语言(WDL)提供一套完善的语法,通过使用XML来描述Web包装器的各个方面,从而实现了包装器的快速生成.它提供编译器把WDL脚本编译成可独立运行的包装器组件.通过WDL生成的包装器对Web页面的变更具有更好的忍受能力,并且优化了对动态页面的处理.WDL可直接用于手工编写包装器,也可作为包装器生成系统的中间表示层,从而提高Web信息集成系统的灵活性,使包装器的维护和重用更加方便.  相似文献   

19.
网络中大量的恶意网页已经成为网络用户的主要安全威胁。本文提出了一种基于机器学习分类器的网页恶意JavaScript代码分析方法。通过对训练样本训练学习,建立分类模型,最后对测试样本检测。实验表明,本方法能够有效的检测出大部分恶意网页JavaScript代码,检测准确率达到88.5%  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号