首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的Web信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则的算法。  相似文献   

2.
多信息块Web页面中的抽取规则   总被引:4,自引:0,他引:4  
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block)Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息。  相似文献   

3.
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。  相似文献   

4.
多信息块Web页面的信息抽取   总被引:13,自引:0,他引:13  
提出了一个采用新的抽取规则的包装器 ,结合采用基于文档结构抽取规则和基于特征Pattern匹配抽取规则包装器的优点 ,可以适用于含有多个信息块的Web页面。  相似文献   

5.
基于页面标签的Web结构化数据抽取   总被引:2,自引:0,他引:2  
任仲晟  薛永生 《计算机科学》2007,34(10):133-136
本文研究了从dataintensive类型的web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim-HTree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识数据项。实验表明,该算法是有效的。  相似文献   

6.
为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。  相似文献   

7.
一种高效Web数据抽取包装器的设计与实现   总被引:1,自引:0,他引:1  
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术.详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果.充分体现了此Web包装器的可行性、高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成.  相似文献   

8.
基于Agent和XML的Web页面信息抽取研究与设计   总被引:4,自引:2,他引:4  
在以前相关研究的基础上,提出了一个建立在Agent和XML基础上的Web页面信息抽取的原型系统。在这个原型系统里,利用Agent的自治能力和合作能力来协助用户对抽取请求进行公式化表述和结合知识库学习抽取规则等。另外,系统还用XML语言描述抽取请求和抽取规则,在其中加入一些语义信息,这些语义信息可被有效利用,从而提高抽取的精确性。  相似文献   

9.
随着Internet的迅猛发展,Web上的网页数目呈现指数级的爆炸性增长趋势,在Web上检索及发现有价值的信息已成为了一项重要的任务,"噪音"的出现往往会降低基于页面处理的各种算法的效率。因此,如何删除页面的噪音,提取页面中的主要内容是Web挖掘中的重要问题。给出了抽取网页中各种分类有效的文本的具体实现。  相似文献   

10.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果.  相似文献   

11.
基于Rhino的JavaScript动态页面解析研究与实现   总被引:1,自引:0,他引:1  
面对互联网上占据全国页面总数50%以上的动态页面,当前网络舆情管控工作中的信息采集环节对以动态页面为主要发布形态的互联网媒体无法实现信息获取.鉴于此,文中提出了基于Rhino实现JavaScript动态页面解析的整体方案.实验结果表明该方案充分丰富了互联网舆情管控工作的数据源对象,是实现动态页面内超链接网络地址递归获取和网页主体内容提取行之有效的解决方案.  相似文献   

12.
面对互联网上占据全国页面总数50%以上的动态页面,当前网络舆情管控工作中的信息采集环节对以动态页面为主要发布形态的互联网媒体无法实现信息获取。鉴于此,文中提出了基于Rhino实现JavaScript动态页面解析的整体方案。实验结果表明该方案充分丰富了互联网舆情管控工作的数据源对象,是实现动态页面内超链接网络地址递归获取和网页主体内容提取行之有效的解决方案。  相似文献   

13.
非法网页过滤的研究与实现   总被引:8,自引:0,他引:8  
周威成  马素霞 《计算机应用》2003,23(10):108-110
文中介绍了文本分类中常用的KNN(K Nearest Neighbor)算法,将KNN算法应用到了非法网页过滤中,提出了一种非法网页过滤解决方案。基于Linux操作系统实现了此方案,并采用国际通用的相关评估方法对本方案的应用进行了测定和评估。评估结果显示,文中提出的方案在非法网页过滤中可以取得很好的过滤效果。  相似文献   

14.
安全Web页的构建与实现   总被引:1,自引:0,他引:1  
介绍了3种安全Web页解决方案-基于程序的安全性验证方式,基于联合列的安全性验证方式,基于指纹的安全性验证方式。  相似文献   

15.
文章结合华侨华人族谱查询和动态网页生成的实现,研究适用于族谱网站建设和族谱查询的相关技术,包括:针对族谱数据的特点改进关系数据模型,族谱查询方案设计与实现、族谱动态网页生成技术以及ASP脚本程序性能优化技术。  相似文献   

16.
基于Web服务的Mashup应用的研究与实现   总被引:2,自引:1,他引:2  
Mashup的出现使得开发更加方便,随着越来越多的信息提供者公开自己的API,用户变成开发者加入到开发Mashup的队列中,各种新型的Mashup应用在网络上出现.Mashup作为Web2.0的特性.能够对数据资源进行整合与利用,提升数据价值.在论述Mashup技术特点的基础上,并讨论采用Mashup技术,实现数据共享和应用开发.提出了基于Web Service的商品信息系统技术框架.通过案例研究验证了基于Web Service来构建Mashup应用的可行性.表明Web Service和Mashup技术在信息系统中具有巨大的应用潜力.  相似文献   

17.
基于矩阵聚类的页面预测研究   总被引:1,自引:1,他引:1  
提出一种基于Web日志的分析方法,构建UserID—URL关联矩阵,通过矩阵聚类进行页面预测,为了加快聚类逑度和效果,引进PingPong算法,实验表明基于矩阵聚类的页面预测达到较高的命中率。  相似文献   

18.
随着互联网上的信息迅速增长,如何快速准确地寻找到信息越来越受到人们的重视。文中给出了几种计算用户兴趣度的方法,并利用其中一种计算用户兴趣度的方法,论述了基于兴趣度的Web页面关联规则。论述了关联规则和一般的Apriori算法,并利用了"壹支持数下K—关联规则",对一般的Apriori进行了改进,主要是将兴趣度用于Apriori算法中。实验结果证明,该方法用于在网上寻找用户感兴趣的信息具有较好的准确率。  相似文献   

19.
基于Web挖掘的网页清洗技术   总被引:1,自引:0,他引:1  
随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。  相似文献   

20.
Web逻辑域挖掘是当前Web挖掘领域的研究热点之一,它强调从网站设计者的角度来挖掘站点中有逻辑联系的网页,以形成一个逻辑域,而不是单纯的文本聚类或超链排序。随着应用的不同,站点逻辑域的界定也有所不同。在综合分析了几种具有代表性的站点逻辑域及其挖掘方法后,提出了基于网页分块聚类的Web站点逻辑域挖掘模型和挖掘算法。实验结果表明,该算法具有很好的稳定性和适应性,其精度不受站点规模、语言、镜像等因素的影响,召回率则会随着取回网页数目的增加而增加。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号