共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
3.
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。 相似文献
4.
5.
基于页面标签的Web结构化数据抽取 总被引:2,自引:0,他引:2
本文研究了从dataintensive类型的web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim-HTree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识数据项。实验表明,该算法是有效的。 相似文献
6.
7.
一种高效Web数据抽取包装器的设计与实现 总被引:1,自引:0,他引:1
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术.详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果.充分体现了此Web包装器的可行性、高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成. 相似文献
8.
基于Agent和XML的Web页面信息抽取研究与设计 总被引:4,自引:2,他引:4
在以前相关研究的基础上,提出了一个建立在Agent和XML基础上的Web页面信息抽取的原型系统。在这个原型系统里,利用Agent的自治能力和合作能力来协助用户对抽取请求进行公式化表述和结合知识库学习抽取规则等。另外,系统还用XML语言描述抽取请求和抽取规则,在其中加入一些语义信息,这些语义信息可被有效利用,从而提高抽取的精确性。 相似文献
9.
随着Internet的迅猛发展,Web上的网页数目呈现指数级的爆炸性增长趋势,在Web上检索及发现有价值的信息已成为了一项重要的任务,"噪音"的出现往往会降低基于页面处理的各种算法的效率。因此,如何删除页面的噪音,提取页面中的主要内容是Web挖掘中的重要问题。给出了抽取网页中各种分类有效的文本的具体实现。 相似文献
10.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果. 相似文献
11.
基于Rhino的JavaScript动态页面解析研究与实现 总被引:1,自引:0,他引:1
面对互联网上占据全国页面总数50%以上的动态页面,当前网络舆情管控工作中的信息采集环节对以动态页面为主要发布形态的互联网媒体无法实现信息获取.鉴于此,文中提出了基于Rhino实现JavaScript动态页面解析的整体方案.实验结果表明该方案充分丰富了互联网舆情管控工作的数据源对象,是实现动态页面内超链接网络地址递归获取和网页主体内容提取行之有效的解决方案. 相似文献
12.
面对互联网上占据全国页面总数50%以上的动态页面,当前网络舆情管控工作中的信息采集环节对以动态页面为主要发布形态的互联网媒体无法实现信息获取。鉴于此,文中提出了基于Rhino实现JavaScript动态页面解析的整体方案。实验结果表明该方案充分丰富了互联网舆情管控工作的数据源对象,是实现动态页面内超链接网络地址递归获取和网页主体内容提取行之有效的解决方案。 相似文献
13.
非法网页过滤的研究与实现 总被引:8,自引:0,他引:8
文中介绍了文本分类中常用的KNN(K Nearest Neighbor)算法,将KNN算法应用到了非法网页过滤中,提出了一种非法网页过滤解决方案。基于Linux操作系统实现了此方案,并采用国际通用的相关评估方法对本方案的应用进行了测定和评估。评估结果显示,文中提出的方案在非法网页过滤中可以取得很好的过滤效果。 相似文献
14.
15.
一种基于多方式查询的族谱动态网页生成技术的研究与实现 总被引:2,自引:0,他引:2
文章结合华侨华人族谱查询和动态网页生成的实现,研究适用于族谱网站建设和族谱查询的相关技术,包括:针对族谱数据的特点改进关系数据模型,族谱查询方案设计与实现、族谱动态网页生成技术以及ASP脚本程序性能优化技术。 相似文献
16.
基于Web服务的Mashup应用的研究与实现 总被引:2,自引:1,他引:2
Mashup的出现使得开发更加方便,随着越来越多的信息提供者公开自己的API,用户变成开发者加入到开发Mashup的队列中,各种新型的Mashup应用在网络上出现.Mashup作为Web2.0的特性.能够对数据资源进行整合与利用,提升数据价值.在论述Mashup技术特点的基础上,并讨论采用Mashup技术,实现数据共享和应用开发.提出了基于Web Service的商品信息系统技术框架.通过案例研究验证了基于Web Service来构建Mashup应用的可行性.表明Web Service和Mashup技术在信息系统中具有巨大的应用潜力. 相似文献
17.
18.
随着互联网上的信息迅速增长,如何快速准确地寻找到信息越来越受到人们的重视。文中给出了几种计算用户兴趣度的方法,并利用其中一种计算用户兴趣度的方法,论述了基于兴趣度的Web页面关联规则。论述了关联规则和一般的Apriori算法,并利用了"壹支持数下K—关联规则",对一般的Apriori进行了改进,主要是将兴趣度用于Apriori算法中。实验结果证明,该方法用于在网上寻找用户感兴趣的信息具有较好的准确率。 相似文献
19.
基于Web挖掘的网页清洗技术 总被引:1,自引:0,他引:1
随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。 相似文献