首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 78 毫秒
1.
针对传统词袋方法在深网(Deep Web)数据源分类应用中的局限性,提出一种基于世界知识的Deep Web数据源增强分类模型,通过对外部知识库的主题分析,建立特征映射,构造基于领域概念的辅助分类器,丰富Deep Web查询表单的特征集合。基于Wikipedia百科知识库对真实Web数据进行分类。实验结果证明该模型有效。  相似文献   

2.
传统Deep Web数据集成研究侧重满足用户的即时查询需求,对数据分析应用缺乏充分支持,提出一个面向分析的Deep Web数据集成系统DWDIS,能够在较少人工参与下对大量Web数据库进行高质量数据获取、抽取和整合,为分析型应用提供优质全面的结构化数据.DWDIS支持领域模型的自动演化;通过自动识别和理解查询接口,采用查询词采新率模型以较小代价最大限度地获取Deep Web页面;充分利用集成系统已有数据中隐含的数据特征,对Deep Web页面进行有效页面抽取和语义标注;结合Web数据源特征,使用机器学习方法对来自大量Web数据库的数据实现高准确率的重复记录检测和数据融合.  相似文献   

3.
随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。  相似文献   

4.
Deep Web数据源的发现和其领域相关性越来越引起人们的关注和兴趣。针对在判别查询接口时,提取精度低和忽略领域相关性的问题,提出一种采用多分类器对Deep Web数据源进行自动分类和判别的方法,其思想是:对爬虫获取到的页面使用朴素贝叶斯分类器对其进行领域相关性分类,然后使用改进的决策树分类器来对特定领域的数据源进行判定。实验结果表明此方法相比于使用单一决策树分类器有更好的性能,其召回率和精度都有所提高。  相似文献   

5.
基于搜索引擎的Deep Web数据源发现技术   总被引:1,自引:0,他引:1  
随着Web数据库的广泛应用,Web正在不断"深化".传统搜索引擎只能检索浅层网络,却不能直接索引到深层网络(Deep Web)的资源.为了有效地利用Deep Web资源,必须要对Deep Web数据进行大规模集成.其中,数据源发现是整合DeepWeb资源的首要工作,能否高效地发现DeepWeb站点是DeepWeb数据获取的关键.提出了一种基于传统搜索引擎的Deep Web数据源发现方法,该方法通过分析返回结果来扩展查询,从而进一步提高了数据源发现的效率.实验证明该方法能得到较好的结果.  相似文献   

6.
Deep Web蕴涵丰富的分类信息,是融合型在线旅游业务良好的数据源。本文对Deep Web接口模式进行分析,提出了接口集成方案的流程和领域实例库的建模方法,并就酒店查询业务进行了对方案的评估。测试结果显示,在对接口页面一定积累的基础上,可以达到较高的模式匹配准确率,从而保证了Deep Web接口的正确的自动查询。  相似文献   

7.
随着Web数据库的广泛应用,Web正在不断“深化”。传统搜索引擎只能检索浅层网络,却不能直接索引到深层网络(Deep Web)的资源。为了有效地利用Deep Web资源,必须要对Deep Web数据进行大规模集成。其中,数据源发现是整合Deep Web资源的首要工作,能否高效地发现Deep Web站点是Deep Web数据获取的关键。提出了一种基于传统搜索引擎的Deep Web数据源发现方法,该方法通过分析返回结果来扩展查询,从而进一步提高了数据源发现的效率。实验证明该方法能得到较好的结果。  相似文献   

8.
互联网上存在许多有价值的信息,搜索引擎只能索引静态页面,无法索引DeepWeb数据,而Deep Web通常以表单形式存在,只有提交表单查询才能获得其数据,如何发现和识别Deep web查询接口成为人们关注的问题.在分析表单表现形式与功能内在的联系的基础上,提出一个表单的抽象模型,依此过滤非Deep Web查询接口的表单.通过对返回结果页面分析方法,实现Deep W出查询接口的识别,实验结果证明了该方法的有效性.  相似文献   

9.
Deep Web数据源发现是指从Web中搜索到含有Web数据库的Deep Web站点。查询接口作为DeepWeb数据源信息访问的唯一入口,发现工作更多地转向了对查询接口的判定。本文在处理时,首先构建领域本体模型,并利用HowNet语义知识辞典进行语义相似度计算,完成查询接口判定工作,同时通过启发式规则提高查询接口判定的效率。  相似文献   

10.
传统搜索引擎仅可以索引浅层Web页面,然而在网络深处隐含着大量、高质量的信息,传统搜索引擎由于技术原因不能索引这些被称之为Deep Web的页面。由于查询接口是Deep Web的唯一入口,因此要获取Deep Web信息就需判定哪些网页表单是Deep Web查询接口。文中介绍了一种利用朴素贝叶斯分类算法自动判定网页表单是否为Deep Web查询接口的方法,并实验验证了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号