首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
深网查询在Web上众多的应用,需要查询大量的数据源才能获得足够的数据,如多媒体数据搜索、团购网站信息聚合等.应用的成功,取决于查询多数据源的效率和效果.当前研究侧重查询与数据源的相关性而忽略数据源之间的重叠关系,使得不同数据源上相同结果的数据被重复查询,增加了查询开销及数据源的工作负载.为了提高深网查询的效率,提出一种元组水平的分层抽样方法来估计和利用查询在数据源上的统计数据,选择高相关、低重叠的数据源.该方法分为两个阶段:离线阶段,基于元组水平对数据源进行分层抽样,获得样本数据;在线阶段,基于样本数据迭代地估计查询在数据源上的覆盖率和重叠率,并采用一种启发式策略以高效地发现低重叠的数据源.实验结果表明,该方法能够显著提高重叠数据源选择的精度和效率.  相似文献   

2.
Web 数据源选择技术   总被引:2,自引:1,他引:1  
在Web数据集成的过程中,如何从大量的Web数据源集合中选择合适数量的数据源,使得在满足特定查询需求的前提下尽可能地减少所需访问的数据源数量,同时保持返回数据结果的高质量,成为Web数据集成中的一个热点问题.以近十几年的研究实践为背景,介绍Web数据源选择的研究沿革及现状,并对Web数据源选择方法进行了归类.分别讨论了基于相关性的和基于质量的数据源选择的研究动机、研究方法和研究成果等,并对相关研究的目标、关键技术、优点和缺点进行了对比分析;最后展望了Web数据源选择未来的研究方向.  相似文献   

3.
根据Deep Web数量的爆炸性增长特点,提出一种基于查询接口文本的Deep Web数据源分类算法,对于分类的查询接口,采用 2种方法:基于向量空间的TF-IDF方法和基于知网的语义相似度方法。综合2种方法获得接口之间的相似度。借鉴K-NN算法,提出WDB分类算法,从而实现Deep Web数据源的分类。实验结果表明,该算法在熵和F-measure 2种评价标准上均能获得较高质量,具有一定实用价值。  相似文献   

4.
数据源选择策略对提高异构数据集成效率具有重要意义。综合考虑概率统计信息和数据源相对执行质量,提出一种新的数据源选择策略。概率统计信息通过分析查询日志得到,包括针对频繁主题类的数据源覆盖度和数据源集合重叠度。数据源相对执行质量包括查询价格、执行时延、数据源可靠性和用户满意度。给出基于以上标准的数据源选择贪心算法,并通过实验原型验证算法有效性。  相似文献   

5.
随着关键词查询技术的飞速发展和互联网数据的迅猛增长,高效、准确的数据源选择变得十分有意义。提出了一种基于倒排列表的数据源选择方式,通过这种方式,能够在短时间内选择出相关度高的数据源,在这些数据源中执行检索,从而减少查询时间,给用户带来了更好的查询体验。从实验结果可以看出,这种方法在实际系统(例如机票查询系统)中可以得到很好的效果。为了在大规模的数据集上高效地实现相关算法,将min-hash算法应用到相似度估计中来,减少了查询空间和时间的消耗。与传统算法的比较结果表明:min-hash算法能够得到较高的精确度,并且极大地节省了算法的运行时间。  相似文献   

6.
《计算机工程》2017,(3):32-39
针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增量数据源选择和集成策略,采用基于数据源质量的选择器过滤大量低质量Deep Web数据源,仅选择若干个高质量的数据源作为第2层选择器的输入。从候选数据源集合中递归地选择,使集成系统在获得尽可能多的高质量数据的同时,避免出现较高覆盖率的k个数据源,作为集成系统最终需要爬取和集成的数据源。实验结果表明,该方法结合两类选择器的优点,缩减了候选数据源的空间并保证集成数据的质量,同时避免了系统处理大量重复数据,有效降低Deep Web数据爬取与集成的代价。  相似文献   

7.
提出了一个同类主题的Deep Web 数据源选择方法,该方法通过数据源差异性分析可有效判断出新数据源的内容与集成系统中已有内容的重复度,进而利用查准率和查全率建立质量估计模型评估各数据源的质量,削弱了已有研究中因查准率低对质量评估产生的负面影响。在主流图书类网站上的实验结果表明,该方法能减少系统的负担,同时获取质量较高的同类主题的数据源。  相似文献   

8.
要实现Deep Web领域中的数据集成,提供一个高效的数据检索策略是集成系统要解决的首要问题.面对众多的Web数据库,选择最恰当的数据库进行查询,实现以更小的代价返回更多的数据是研究的核心问题.针对此问题,提出了基于Web数据库独立样本的Web数据库特征表示和抽取方法,并基于该特征,提出了一种综合考虑查询相关度、返回数据量和数据冗余度3个要素的数据源选择方法.实验证明,该方法能够达到预期的研究目标,能较好地满足集成系统的需求.  相似文献   

9.
在Deep Web页面的背后隐藏着海量的可以通过结构化的查询接口进行访问的数据源。将这些数据源按所属领域进行组织划分,是DeepWeb数据集成中的一个关键步骤。已有的划分方法主要是基于查询接口模式和提交查询返回结果,存在查询接口特征难以完全抽取和提交数据库查询效率不高等问题。提出了一种结合网页文本信息,基于频繁项集的聚类方法,根据数据源查询接口所在页面的标题、关键词和提示文本,将数据源按照领域进行聚类,有效解决了传统方法中依赖查询接口特征以及文本模型的高维性问题。实验结果表明该方法是可行的,具有较高的效率。  相似文献   

10.
基于XML的异构数据集成系统的查询处理   总被引:4,自引:0,他引:4  
讨论了基于XML的Web异构数据源集成系统中的查询处理,并提出了针对全局视图的语义缓存的实现方法,包括查询与缓存入口的匹配算法,网络环境下缓存建立和淘汰算法;最后描述了Gav模式集成方式下的查询分解和优化方法。  相似文献   

11.
数据仓库是连接底层数据源与上层应用的枢纽。该文介绍了数据仓库的填充(与数据源的连接)和数据仓库的访问(与应用界面的连接)技术,包括与数据库数据源和非数据库数据源的连接以及采用组件工具访问数据仓库的方式和实现方法。  相似文献   

12.
为了解决实际问题,大数据分析处理系统需要获取数据,然而实际场景中收集到的实际数据通常不完备.另外,大多数问题的解决方案通常是由问题引导或者仅仅进行数据分析,运行参数调整和设定带有较大的盲目性,难以达到应用的智能性.为此,文中提出平行数据的概念和框架,根据实际数据经计算实验产生真正的虚拟大数据,结合默顿定律,以期待的解决方案与问题进行广义对偶,引导大数据聚焦到实际问题.实际数据与虚拟数据动态互动,平行演化,形成一个虚实相生、数据动态变化的过程,最终使数据具备智能,进而解决未知的问题.平行数据不但是一种数据表示形式,更是一种数据演化机制与方式,其特色是虚实互动,所有数据的动力学轨迹构成了数据动力学系统.平行数据为数据处理、表示、挖掘和应用提供了一个新的范式.  相似文献   

13.
吴昊 《电脑学习》2001,(2):36-37
为有效地解决实际问题,可能要使不同语言进行混合编程,这样就涉及到数据的传递和不同类型的数据文件之间的转换,这里讨论几种常用数据交换问题。  相似文献   

14.
陈元  陈文伟 《计算机工程》2000,26(10):9-10,85
通过定义SOL数据挖掘抽取器,设计了数据挖掘算法和数据库管理系统的接口的框架体系。并通过一个常用的数据挖掘算法简单贝叶斯算法说明了这种标准的SOL数据挖掘抽取器的适用性。  相似文献   

15.
Making a business decision using data from severaldifferent enterprise databases can be complicated. Data warehousesconsolidate data into a central repository and give you the OLAP toolsnecessary to retrieve data pertinent to the solution.DefinitionA data warehouse is used to consolidate this data into a central storeand to arrange it to make analysis easier, which means the data is lessnormalized than your traditional application database. Data is typicallytransferred in batch to the centra…  相似文献   

16.
数据仓库中的数据提取   总被引:18,自引:2,他引:16  
连立贵  金凤  蔡家楣 《计算机工程》2001,27(9):61-62,99
数据仓库的思想和工具在企业中得到了越来越广泛的体现和应用,在当前典型的数据仓库应用中,数据仓库的填充或者说数据的提取,转换和加载是设计人员遇到的最大挑战之一,预计在数据仓库的设计过程中,80%的努力都将用于此过程。该文从工程角度介绍了数据提取、转换和加载的过程和实现方式,并介绍了4种可灵活应用的数据提取方法。  相似文献   

17.
面向客户数据仓库的数据集成方法   总被引:3,自引:0,他引:3  
数据集成问题是建立数据仓库过程中的重要问题之一,而客户资料又是其中最难以集成的数据,对于该问题目前还没有一个很好的解决方法。我们总结在实际实践中取得的经验,提出了一套切实可行的解决方案,同时兼顾了集成效率和准确率两方面因素,实际应用效果比较理想。  相似文献   

18.
数据转换过程的串行化方法   总被引:2,自引:1,他引:2  
随着数据仓库和数据集成的发展,数据清洗的工作越来越多,用户在进行数据清洗时需要对数据的内容进行多次处理。在设计清洗的建模过程中,用户可能对同一个数据进行多次的清洗和转换处理,由于步骤多,用户往往不知道清洗和转换步骤出现错误。该文对前述问题进行论述,并针对这种清洗和转换处理中的赋值冲突和范围冲突提出解决方法。  相似文献   

19.
数据仓库中数据质量控制研究   总被引:18,自引:1,他引:18  
随着数据仓库的深入应用,数据质量问题成为关系到数据仓库建设成败和数据能否有效应用的重要关键问题。该文首先讨论数据仓库环境下存在的数据质量问题以及保证数据质量的重要性,然后提出数据质量的度量和评价指标,最后给出了数据仓库实施和运行过程中数据质量控制的数据质量成熟度模型和保证仓库数据质量的方法。  相似文献   

20.
数据仓库中的数据集成转换   总被引:2,自引:0,他引:2  
本文首先提出了数据仓库中数据集成的一个总体框架,然后列举了在数据转换中可能遇到的主要问题,最后根据这些转换规则,给出了一种描述性脚本语言来描述这些规则,继而给相应的处理模块解析处理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号