首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法。实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势。  相似文献   

2.
信息抽取技术在LBS中的应用   总被引:1,自引:0,他引:1  
由于LBS系统的终端设备处理能力较低,显示屏幕较小,再加上无线数据网络带宽不足,因此无法浏览整个Web网页。采用信息抽取技术可以将用户感兴趣的信息提取出来,再发送给用户终端,有效地解决上述问题,信息抽取技术将是LBS系统中的一项重要应用。提出了一种基于信息抽取的从删.到WML的页面转换方法,首先标记少量的Web网页形成样本实例集,采用归纳算法生成信息抽取规则;其次应用抽取规则和模式匹配来处理结构和风格类似的Web页面;最后将抽取结果转换为WML页面。开发了原型系统,通过对实际数据源的抽取,验证了此方法的有效性。  相似文献   

3.
随着互联网的普及和电子商务的发展,形成了大量的商品供应信息资源。从企业门户网站和电子市场的海量商品网页中抽取出供应信息资源,是电子交易迫切需要解决的问题。在分析信息抽取过程和商品网页结构的基础上,构建了基于网页DOM树的商品供应信息抽取模型。该模型由网页采集层、HTML文档解析层、信息抽取层和结果处理层组成,并重点对信息抽取层的抽取规则进行了探讨。  相似文献   

4.
一种基于统计学特征和DOM树的网页去噪技术   总被引:1,自引:0,他引:1  
针对特定的网站或网页中抽取出用户感兴趣的信息这一问题,分析现有去噪技术的优缺点,提出了一种基于统计学特征和DOM树的Web页面去噪方法。该方法首先对原始网页进行预处理,然后分析网页的统计学特征,结合启发式的抽取规则,对网页进行去噪。实验证实该方法在较少人为干预的基础上能达到较好的抽取效果。  相似文献   

5.
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性.为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法.该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集.利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取.实验表明,该方法准确率可达97%.  相似文献   

6.
网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。  相似文献   

7.
为了使出版机构能够及时从大量网页中发现所需文献,需要设计能够从超文本标记语言页面中自动提取文献信息的算法.为此,设计了基于条件随机场的文献记录分析算法:首先,设计了文档对象树的分割算法,通过分割标记将页面数据分成独立的部分,这些数据块由标签和文本序列构成;随后,将该序列作为条件随机场模型的特征向量,建立文献信息标记模型;最后,设计启发式算法,从标记模型中提取文献信息数据,并通过实验验证了其有效性.  相似文献   

8.
基于HTML结构特征的网页信息提取   总被引:1,自引:0,他引:1  
Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性。  相似文献   

9.
针对目前国内外多种信息抽取方法中存在不同程度的局限性,提出一种基于DOM树和二叉树结构的Web表格信息抽取方法.该方法提供了以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具.该工具将Html文档解析成DOM树,再将DOM树构建成一棵含有文本信息的二叉树,最后通过遍历二叉树实现对Web表格信息的抽取...  相似文献   

10.
为了给北京市知识产权预警能力研究提供基础数据,通过检索美国专利商标局(USPTO)网络专利数据库可以得到动态网页形式的专利信息.基于XML相关技术,提出了将这些网页形式的专利数据抽取到关系数据库的技术和方法.使用正则表达式匹配的方法进行页面过滤,将网页解析为文档对象模型(DOM)进行清洗,通过可扩散样式表转换语言(XSLT)模板抽取专利信息,并通过对象映射的方法将专利信息存入关系数据库,实现了专利信息抽取原型系统.实验结果表明,该原型系统具有较高的召回率和准确率.  相似文献   

11.
大量的不规范表结构信息是当前Web信息提取所必须解决的问题.在现有方法基础上,给出了归纳学习相邻属性间上下文规则集算法,提出了以Web页为粒度的属性转换机和有限状态自动机包装器概念,最后介绍了采用有限状态自动机包装器提取不规范表结构Web信息的算法.  相似文献   

12.
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给多媒体内容的检索,信息提取等计算机处理带来了巨大困难。针对信息提取后,网页的多媒体内容的不一致性,本文提出了一种Web网页多媒体信息提取的融合算法。该算法通过对图像和文本的语义融合,判断信息提取后的网页中的各种形态的内容是否一致,并通过网页中的文字更加准确地表示图片所传达的内容。对来自30个网站的307个网页进行测试后的实验表明,本文提出的方法是可行的。  相似文献   

13.
讨论了一种基于XML在网络中抽取信息的方法.理想的数据抽取过程是仅仅分析由HTML页面组成的网站数据库.然而,全面的信息抽取过程需要面对许多障碍.正确的数据抽取还需要有可靠的数据验证和错误恢复服务,以应对无法避免的数据抽取故障.提出一个名为NIES的软件框架,它可以大大提高网络信息抽取的效率和准确度,保证了网络信息抽取的质量.NIES的关键部分是用XML技术来进行数据抽取,它包含了XHTML和XSLT并且支持连接"深度网络".  相似文献   

14.
对用于制作独立于平台的动态 Web页面的两种技术 ( CGI技术和 JDBC技术 )进行分析比较 ,着重介绍了 JDBC的结构及其工作原理 ,并通过实例说明运用 JDBC技术制作动态 Web页面的具体过程。  相似文献   

15.
Web内容挖掘算法的比较研究   总被引:1,自引:0,他引:1  
Web内容挖掘是对来自互联网上的资源进行信息挖掘的一种过程,是普通文本挖掘结合Web信息特征的一种特殊应用,目的在于将Web页面上的文本内容按照一定的规则分成不同的类别.简要地介绍了三种用来分类的算法,并根据结论来对这三种算法进行对比和分析,最终得出了熵算法是能分类图片最好算法的结论.  相似文献   

16.
ActiveX技术与动态Web页面的开发   总被引:8,自引:0,他引:8  
通过对ActiveX技术和动态Web模型的介绍,展示了一种运用ActiveX技术,采用传统应用程序开发技术、结合现有的资源和条件,实现了动态Web页面开发的方法。  相似文献   

17.
基于HTMLParser的Web信息抽取系统的设计与实现   总被引:2,自引:2,他引:0  
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser的原理和java正则表达式相关知识,基于HTMLParser包和正则表达式。以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用。  相似文献   

18.
ASP(Active Server Page)是一种服务器端的网页设计与分布技术,它组合HTML页、ASP脚本命令和ActiveX组件以创建交互的Web网页.作者从介绍ASP运行进程入手,探讨了ASP和数据库相融合的方法,给出了Web网页的动态交互设计与发布技术-ASP解决方案.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号