首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
1.引言随着Internet的发展和异构信息源(从传统的RDBMS到半结构化信息源)集成技术的提高,对Web环境下的信息进行集成、分析处理并提供决策服务己成为当前的研究热点。Web信息集成最初采取Mediator/Wrapper框架的虚拟方案。Ullman在提交给VLDB‘97的论文中指出,“Media-tor实际上是一个或多个信息源上的视图”。用户通过Media-tor提供的数据模式访问数据源。Wrapper实现Mediator数据模式与源数据的映象。当用户提交一个查询时,Mediator确定哪些数据源与该查询相关,把查询分解为各数据源上的子查询,提交给相应的Wrapper处理。  相似文献   

2.
Deep Web集成服务的不确定模式匹配   总被引:5,自引:0,他引:5  
随着Deep Web的迅猛发展,从高度自治、异构及动态变化的Web数据库中,为用户提供高质量的数据逐渐成为当前Deep Web集成服务的一个研究热点.在大部分Web数据库只能通过查询接口为用户提供服务的前提下,如何建立用户请求与集成查询接口模式之间以及集成查询接口模式与Web数据库查询接口模式之间的匹配关系,是Deep Web集成服务中进行合理的用户请求转换的关键.之前的相关工作都是寻找最佳的匹配结果,回避匹配的不确定性,丢弃了可能有价值的其他匹配结果.文中首先剖析了请求转换中模式匹配的不确定性,提出了数字类型的相似度计算方法,给出了进行数字类型的模式匹配的有效的剪枝方法以及数据类型驱动的模式匹配优化方法,并在此基础上提出了一种基于相似度计算的不确定性模式匹配方法,最后通过大量的实验证明了该方法的有效性.  相似文献   

3.
Deep Web中蕴含了海量可供访问的信息,如何构建一个具有较好适用性和高效数据处理能力的Deep Web数据集成系统是有效利用Deep Web信息的关键.提出一种基于结果模式的Deep Web数据集成机制,通过结果模式可以实现高效的数据抽取,并且在结果模式的基础上可以根据用户查询请求动态生成结果输出模式,为高效的查询结果处理奠定了良好基础;同时,针对Deep Web数据源特点,给出数据源间冲突的分类及解决策略,为解决数据源间的异构问题奠定了良好基础.  相似文献   

4.
针对传统Web数据集成系统实用性、伸缩性和适应性差的问题,提出了一种新的Web数据集成系统体系结构UQSIQ,实现Web规模的数据集成.系统根据用户查询的模式映射相关领域,选择Web数据库,执行查询排序查询结果.介绍了组成系统的关键组件,及领域映射和用户模式匹配等处理大规模异构Web数据的关键技术.  相似文献   

5.
传统的 Top-k 查询处理都是利用单用户偏好来计算评分函数,这种方法有极大的局限性。针对基于多用户偏好的 Top-k 查询处理问题进行研究,为了提高查询效率,首先提出了预处理算法 PA 与 PVA ,生成一些具有代表性的系统用户偏好,并据此将初始数据集进行全排序,保存在物化视图中,以便利用它们进行 Top-k 查询。然后,提出了处理 Top-k 查询的 VBA 算法且进行了正确性与完备性论证。最后,实验结果表明,该算法比直接在原数据集中查询的效率有极大的提高。  相似文献   

6.
强保华  李巍  邹显春  汪天天  吴春明 《计算机科学》2013,40(11):228-230,247
集成查询接口的生成是Deep Web数据集成的重要组成环节。如何对不同领域的查询接口进行有效的聚类是生成集成查询接口时需要解决的核心问题之一。针对传统的向量空间模型在Deep Web查询接口聚类时单纯依赖关键词匹配的缺点,引入潜在语义分析(LSA)的方法来发掘查询接口之间的语义关系,并给出了基于潜在语义分析的Deep Web查询接口聚类算法,最后采用UIUC的Web集成资源库提供的数据进行了实验。结果表明,潜在语义分析的方法提高了同一领域查询接口之间的相似度,明显改善了Deep Web查询接口聚类的质量。  相似文献   

7.
基于Web服务的异构数据库共享及同步机制   总被引:1,自引:0,他引:1  
分析了企业数据集成中存在异构数据库共享和同步问题,提出了一种基于Web Service的异地异构数据库集成方法,把分布在异地的异构数据库源通过Web Service连接起来形成一个异构的中心数据库,为用户提供一个透明统一的接口,用户不仅能够对中心数据库进行查询,还能够对中心数据库进行增、删、改的操作,并使之同步到异构源数据库中,同时源数据库端的数据和结构的改动也能同步到中心数据库上,之后对关键技术做了详细描述.最后,用实例表明了研究的框架如何应用于实际应用中.  相似文献   

8.
为了有效地对异构专利数据源进行统一的查询,提出一个基于本体的异构专利数据源集成系统.该系统引入本体解决数据源集成中存在的语义异构,通过全局数据模式为用户提供统一的查询接口,将用户针对全局数据模式的查询重写为针对各个局部数据源的子查询.使用该系统,用户可以从异构的专利源中得到正确的查询结果.  相似文献   

9.
随着数据规模的日益庞大,在大规模数据集中帮助用户定位出数据量可控的代表性信息显得越发重要。虽然Top-k Skyline查询能够找到数据集中前k个最具代表性的信息,在获取代表性信息的同时又控制了结果规模,满足了上述要求,但是现有的Top-k Skyline查询在面对大规模数据集时效率较低,并不适用于大规模数据集。为了解决这个问题,将Top-k Skyline查询与并行化处理相结合,提出了一种面向大规模数据集的并行化Top-k Skyline查询算法PTKS(parallel Top-k Skyline),通过充分利用分布式资源,将原有查询进行有效的并行化处理,同时设计了基于用户偏好的用于缩减结果数据量的筛选规则,满足用户需求。在真实数据集上进行了相关实验,并与现有方法进行了对比,结果表明PTKS在大规模数据集上的查询效率更具有优势,能很好地适用于大规模数据集。  相似文献   

10.
随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。  相似文献   

11.
Top-k查询在传统的存储确定性数据的关系型数据库中得到了广泛的应用,但是对于存储不确定性数据的数据库,Top-k查询必须结合元组的分值和不确定性来处理.已有的Top-k查询没有很好地结合元组的分值和不确定性,因此,定义一种新的针对不确定性数据的Top-k查询语义,并且实现了查询算法,在新语义下,计算第i位排名时考虑了第i-1位元组,能够更好地权衡分值和不确定性.不同数据集上的实验显示,该算法是有效的.  相似文献   

12.
在不确定性数据集中,基于参数化排名函数的Top-k查询研究近年来备受关注。给出了一种新的解决方法,该方法将不确定性数据集中的元组建模为不确定网络,将有序元组的Top-k查询等价转化为相应样本图中边的不确定测度关系,并对样本图依据所包含边的排序位置进行分类,从而 将不确定性数据中基于参数化排名函数的Top-k查询等价转换为依Top-k值不同的有限查询。本算法避免了计算所有元组在样本图中的排名不确定测度值,提高了不确定图的Top-k查询计算效率。 理论分析和实验结果表明,提出的Top-k查询算法能够从非确定角度解决不确定性数据的Top-k查询计算问题。  相似文献   

13.
两层传感器网络中可验证隐私保护Top-k查询协议   总被引:3,自引:1,他引:3  
范永健  陈红 《计算机学报》2012,35(3):423-433
无线传感器网络中隐私保护技术已经成为研究热点,其中隐私保护精确Top-k查询协议已成为富有挑战性的研究问题.文中提出了一种两层传感器网络中可验证隐私保护Top-k查询协议SafeTQ(Safe Top-k Query),SafeTQ由隐私保护Top-k查询协议和两种完整性验证模式组成.SafeTQ使用加随机数扰乱、加密和高资源节点之间安全计算第k位数据值等策略,能够在不泄漏隐私信息的情况下,精确地完成传感器网络Top-k查询.SafeTQ中两种完整性验证模式分别使用邻居数据项形成加密链和空间邻居节点概率发送验证消息策略,使Sink能够检测和拒绝不正确或不完整查询响应.文中通过理论分析和使用真实数据集实验验证了SafeTQ的安全性和有效性.  相似文献   

14.
两层传感器网络中的隐私保护Top-k查询是当前传感网络领域的研究热点,且传感器网络面临严重的隐私保护问题。因此,本文提出了一种两层传感器网络中基于位表的隐私保护Top-k查询算法BTTQ(BitsTable-Based Top-k Query)。BTTQ算法利用保序函数将原始数据分布P映射到目标分布T,并利用取模运算对目标分布T的范围进行扰动,从而保证了感知数据的隐私性;BTTQ通过位表来表示扰动后的数据,所以在查询过程中只需传输位表信息,从而能够有效地降低了网络的通信代价,节省了能耗。理论分析和实验结果表明,与现有Top-k查询算法相比,BTTQ在不泄漏感知数据信息的前提下,算法具有能量高效、安全和高精确性特点。  相似文献   

15.
SEEKER:基于关键词的关系数据库信息检索   总被引:20,自引:3,他引:20  
文继军  王珊 《软件学报》2005,16(7):1270-1281
传统上,SQL是存取关系数据库中数据的主要界面.但是,对于没有经验的用户来说,学习复杂的SQL语法是一件困难的事情.实现基于关键词的关系数据库信息检索,将使用户不需要任何SQL语言和底层数据库模式的知识,用搜索引擎的方式来获取数据库中的相关数据.描述了一个基于关键词的关系数据库信息检索系统SEEKER的设计和实现.现有的关系数据库关键词查询系统只能检索关系数据库中的文本属性,而SEEKER还可以检索数据库元数据以及数字属性.并且,SEEKER采用了更合理的排序公式,支持Top-k查询.实验结果显示,SEEKER具有良好的查询性能.  相似文献   

16.
Top-k查询要求返回在某种比较规则下的前k个网络数据,如最高(或最低)的k个监测值,是很多无线传感器网络应用中的重要查询.提出基于数据分布表的Top-k查询处理协议DDT-Q.DDT-Q采用跨层优化策略;以Sink为根,建立最短路径生成树,树中各节点都维护反映其子树节点感应数据分布的数据分布表DDT,根据DDT,把查询请求只分发(路由)到对查询结果有影响的数据源节点,实现对查询路由和返回数据的选择优化;节点利用数据分布表和查询参数k按子节点返回数据量大小为子节点"按需"分配通信时隙数, 即利用数据分布表指导MAC层的优化.实验结果表明,DDT-Q在不同的网络配置下,在能量消耗和查询延迟等性能方面都优于基于TAG的查询策略.  相似文献   

17.
Top-k查询是搜索引擎领域广泛应用的技术之一,该算法从海量数据中返回最符合用户需求的前k 个结果,在执行时能避免对大部分无关文档的打分处理。Top-k 查询虽然极大提升了查询性能,但其存在的慢启动问题并未得到有效解决。为此,该文首先提取倒排索引的静态Top-k信息,再动态计算针对具体查询词项的初始阈值,在此基础上,结合MaxScore和WAND算法,提出了快速启动的Top-k查询处理算法。实验结果表明,该方法能够有效解决上述问题,具有良好的性能。  相似文献   

18.
针对传统Top-k连接查询算法在处理海量数据时的时效问题,提出一种基于MapReduce框架的负载均衡的并行Top-k连接查询算法(P-TKJ)。使用直方图形式来存储数据,有助于提高CPU的利用率。同时融入了提前终止策略和磁盘数据的选择性访问,以便提高对HDFS数据访问的性能。另外,提出了一种基于最长处理时间优先(LPT)算法的负载均衡策略来均衡Reduce任务,以此设计出高效的并行Top-k连接算法。一个集群实验结果表明,该方法能够有效缩短算法的执行时间。  相似文献   

19.
传统的数据挖掘算法在挖掘频繁项集时会产生大量的冗余项集,影响挖掘效率。为此,提出一种基于矩阵的数据流Top-k频繁项集挖掘算法。引入2个0-1矩阵,即事务矩阵和二项集矩阵。采用事务矩阵表示滑动窗口模型中的事务列表,通过计算每行的支持度得到二项集矩阵。利用二项集矩阵得到候选项集,将事务矩阵中对应的行做逻辑与运算,计算出候选项集的支持度,从而得到Top-k频繁项集。把挖掘的结果存入数据字典中,当用户查询时,能够按支持度降序输出Top-k频繁项集。实验结果表明,该算法在挖掘过程中能避免冗余项集的产生,在保证正确率的前提下具有较高的时间效率。  相似文献   

20.
对比序列模式可以用来表征不同类别数据集之间的差异。在生物信息、物流管理、电子商务等领域,对比序列模式有着广泛的应用。Top-k对比序列模式挖掘的目标是发现数据集中对比度最高的前k个序列模式。在Top-k对比序列模式挖掘中,可能挖掘出冗余的序列模式。目前,虽然有Top-k对比序列模式发现算法被提出,但这些算法并未考虑冗余序列模式的问题。为此,本文提出了基于广度优先生成树的去冗余Top-k对比序列模式挖掘算法BFM(breadth-first miner)。使用BFM算法可以有效地解决冗余问题,得到去冗余的Top-k对比序列模式。在BFM算法的基础上,提出了性能更好的算法PBFM(pruning breadth-first miner)。通过在真实数据集上的实验分析与对比 ,验证了本文算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号