首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统.  相似文献   

2.
提出了一种基于Web日志挖掘的网页推荐系统。该系统采用Web日志挖掘的方法对用户的访问记录进行分析,挖掘出与用户访问的页面具有一定相关度的页面并推荐给该用户,为用户提供最合适、更具人性化的信息资源。  相似文献   

3.
基于分类语义的Web信息检索系统   总被引:2,自引:0,他引:2  
在海量数据空间中快速、准确地获取用户所需Web信息成为检索系统研究的焦点.将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题。设计一个基于分类语义的搜索引擎系统——SESC系统.通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使得用户快捷地从WWW上获取所需信息.  相似文献   

4.
为解决站内搜索引擎页面和用户之间的交互性,用公用网关接口技术CGI完成动态网页的制作。由Web浏览器提交搜索引擎页面的查询语句给web服务器后,Web服务器调用搜索程序,把检索到的相关结果再回传给web服务器和web浏览器,通过CGI技术成功实现了浏览器和可执行程序之间的动态交互性,达到用户快速获得查询信息的目标。系统介绍了用CGI程序实现搜索引擎页面的提交和编码转换处理的实施步骤。实验表明,用C语言编写的CGI脚本程序能够很好的实现用户和页面的交互性。  相似文献   

5.
一种基于统计学特征和DOM树的网页去噪技术   总被引:1,自引:0,他引:1  
针对特定的网站或网页中抽取出用户感兴趣的信息这一问题,分析现有去噪技术的优缺点,提出了一种基于统计学特征和DOM树的Web页面去噪方法。该方法首先对原始网页进行预处理,然后分析网页的统计学特征,结合启发式的抽取规则,对网页进行去噪。实验证实该方法在较少人为干预的基础上能达到较好的抽取效果。  相似文献   

6.
随着数据挖掘和万维网技术的结合,使得从收集到的访问Internet网页的网站日志记录中执行数据挖掘成为可能。将数据挖掘技术应用于Web日志记录,来发现用户访问Web页面的模式,便形成了Web访问模式挖掘。Web访问模式挖掘是从Web访问日志中挖掘有用的用户访问信息,用于找出头N个用户,头N个被访问页面,最频繁访问时间以及关联模式、序列模式、聚类模式、分类模式和Web访问趋势等,这对于优化站点结构、为不同类别的用户提供个性化服务,有效地实现信息获取和信息推送是非常必要的。Web访问模式挖掘是目前数据挖掘领域的热点,详细论述了Web访问模式挖掘的概念、方法和过程。  相似文献   

7.
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性.为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法.该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集.利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取.实验表明,该方法准确率可达97%.  相似文献   

8.
正则表达式在Web信息抽取中的应用   总被引:1,自引:0,他引:1  
针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web信息抽取的过程中。  相似文献   

9.
随着数据挖掘和万维网技术的结合,使得从收集到的访问 Internet网页的网站日志记录中执行数据挖掘成为可能.将数据挖掘技术应用于 Web日志记录,来发现用户访问 Web页面的模式,便形成了 Web访问模式挖掘. Web访问模式挖掘是从 Web访问日志中挖掘有用的用户访问信息,用于找出头 N个用户,头 N个被访问页面,最频繁访问时间以及关联模式、序列模式、聚类模式、分类模式和 Web访问趋势等,这对于优化站点结构、为不同类别的用户提供个性化服务,有效地实现信息获取和信息推送是非常必要的. Web访问模式挖掘是目前数据挖掘领域的热点,详细论述了 Web访问模式挖掘的概念、方法和过程.  相似文献   

10.
针对绝大多数Web应用都在使用动态网页以及数据库技术,频繁访问后台数据库并动态生成内容会给服务器带来沉重负荷,从而降低页面响应速度,甚至造成服务器崩溃;为解决这一问题,提出了动态网页静态化的方案.结合某网上商城系统的设计,提出了网页静态化的原则和策略;针对商城首页和商品详情页面,分别介绍了定时静态化以及访问时静态化的方法.实验结果表明:经过静态化处理,网页的响应速度明显提升,而系统能够处理的并发请求数量也大幅度提升.  相似文献   

11.
提出一种新的新闻网页内容提取方法。与已有的研究相比,它自动判别网页是否含有主内容,并且回避了模板和DOM-Tree方法所带来的局限。主要工作包括:①提出了一种网页分块方法,通过一趟遍历将网页主内容和噪声划分到不同的块中;②提出网页块分布的概念并研究了块分布的属性,根据块分布可以有效地使用分类方法来判别网页是否有主内容,采用孤立点分析的方法从网页块分布中提取主内容。本文通过理论和实验证明了该方法的有效性。  相似文献   

12.
大量的不规范表结构信息是当前Web信息提取所必须解决的问题.在现有方法基础上,给出了归纳学习相邻属性间上下文规则集算法,提出了以Web页为粒度的属性转换机和有限状态自动机包装器概念,最后介绍了采用有限状态自动机包装器提取不规范表结构Web信息的算法.  相似文献   

13.
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理.文中详细介绍了如何使用HtmlParser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用.  相似文献   

14.
随着互联网的普及和电子商务的发展,形成了大量的商品供应信息资源。从企业门户网站和电子市场的海量商品网页中抽取出供应信息资源,是电子交易迫切需要解决的问题。在分析信息抽取过程和商品网页结构的基础上,构建了基于网页DOM树的商品供应信息抽取模型。该模型由网页采集层、HTML文档解析层、信息抽取层和结果处理层组成,并重点对信息抽取层的抽取规则进行了探讨。  相似文献   

15.
基于HTML结构特征的网页信息提取   总被引:1,自引:0,他引:1  
Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性。  相似文献   

16.
为了更好地对网络视频监控设备进行在线管理与维护,提出了一种网络视频监控设备在线检测与自动识别技术.利用无状态扫描技术进行网络终端设备的在线检测,从终端设备特定端口返回的HTTP头信息中提取BANNER和HTML页面信息,并通过粗糙集属性约简后构建设备Web身份特征.利用余弦距离计算在线设备Web身份特征与已知设备特征库样本之间相似度,实现在线设备的检测与识别.结果表明,该方法能够较好地在线检测并自动识别网络视频监控设备,具有较高的识别准确率和较低的识别遗漏率.  相似文献   

17.
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给多媒体内容的检索,信息提取等计算机处理带来了巨大困难。针对信息提取后,网页的多媒体内容的不一致性,本文提出了一种Web网页多媒体信息提取的融合算法。该算法通过对图像和文本的语义融合,判断信息提取后的网页中的各种形态的内容是否一致,并通过网页中的文字更加准确地表示图片所传达的内容。对来自30个网站的307个网页进行测试后的实验表明,本文提出的方法是可行的。  相似文献   

18.
垃圾网页检测具有重要意义,由于只有少量标记网页,所以可使用半监督协同训练方法检测垃圾网页。将网页特征分为两个视图,即内容视图与链接视图。首先使用独立成分分析分别提取两视图特征的独立成分,然后进行协同训练。实验结果表明,该方法可有效提高垃圾网页检测精度,同时验证了对两个视图分别进行独立成分分析相比于其他方法更为有效。  相似文献   

19.
提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号