首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 593 毫秒
1.
随着基于Internet的数据查询系统的发展与普及,适应性查询处理逐渐成为一项重要的技术。目前的Internet可以看作一个庞大的分布式和异构化数据库,各个数据源具有自治性,加上广域网网络传输带宽的限制,各个数据源数据的可访问性以及传输速度是经常变化和不可预测的。传统的采用“停止-进行”方式的查询处理不能很好地处理这种情况。而能够在查询执行过程中动态调整查询计划的适应性查询处理是针对此类应用的最佳选择。文章论述适应性查询处理涉及的研究课题及解决技术,并例举最新的研究成果。  相似文献   

2.
如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式的相似度选择与查询相关度高的数据源,通过计算依赖数据源的质量来选取质量较好的数据源;第二阶段基于最大熵理论计算数据源之间的重复率,设计实现了一个查询最小代价模型动态选择数据源算法。最后在实验平台上对算法进行了评估,实验表明该算法具有较高的效率与扩展性。  相似文献   

3.
随着互联网数据爆炸式的增长,信息检索系统逐步采用分布式多数据源架构存储数据,在关键字检索时,选择与用户查询的关键字相关度大的数据源进行查询对提高检索效率显得格为重要.提出一种基于关键字检索的XML数据源选择方法,针对XML文档结构的层次特性,提出一种递归定义的结果评分模型,将结点的关键字频率与路径长度递归地加入到评分模型中,使得评分模型能够准确地评判结果的优劣.同时,利用评分模型定义并提取了XML数据源的摘要,并给出了摘要存储中涉及的压缩、优化、更新等问题的解决方案及算法.根据摘要信息,提出4种数据源选择的方案,并使用DBLP数据集来验证了文章所提出的数据源选择算法的有效性.  相似文献   

4.
深网查询在Web上众多的应用,需要查询大量的数据源才能获得足够的数据,如多媒体数据搜索、团购网站信息聚合等.应用的成功,取决于查询多数据源的效率和效果.当前研究侧重查询与数据源的相关性而忽略数据源之间的重叠关系,使得不同数据源上相同结果的数据被重复查询,增加了查询开销及数据源的工作负载.为了提高深网查询的效率,提出一种元组水平的分层抽样方法来估计和利用查询在数据源上的统计数据,选择高相关、低重叠的数据源.该方法分为两个阶段:离线阶段,基于元组水平对数据源进行分层抽样,获得样本数据;在线阶段,基于样本数据迭代地估计查询在数据源上的覆盖率和重叠率,并采用一种启发式策略以高效地发现低重叠的数据源.实验结果表明,该方法能够显著提高重叠数据源选择的精度和效率.  相似文献   

5.
数据稀疏是推荐系统面临的主要挑战之一。近年来,多源数据融合为解决数据稀疏问题提供了新思路。然而,现有方法大多假设对象在不同数据源中具有相同的表示,这种硬约束方式无法刻画对象在不同数据源中的差异性。该文提出一种基于软约束矩阵分解的推荐算法,通过约束不同数据源中对象的隐因子向量,能够同时刻画同一对象表示的共性及其在不同数据源中的差异性。在两个数据集上的实验表明,该文提出的软约束矩阵分解算法在准确率方面优于现有的单数据源推荐算法和多源数据硬约束融合推荐算法,可以有效解决推荐系统面临的数据稀疏问题。  相似文献   

6.
对于综合运输中的铁路、公路、水路和航空运输系统中的异构数据源可以使用网格来实现数据的集成。为了提高网格集成环境中用户查询(涉及多异构数据源)的效率和精确性,提出了基于多本体的并行查询处理方法,给出了全局查询的生成算法和基于查询树的全局查询分解算法。  相似文献   

7.
查询重写是数据集成研究中的一个基本问题,同时也是一个热点问题。MiniCon算法是一种可伸缩的高效的查询重写算法。文本对它进行了深入的介绍,将MiniCon算法与数据源的查询能力相结合,解决了MiniCon算法中不考虑实际数据源查询能力的问题,完成了LAV数据集成系统中的查询处理。  相似文献   

8.
针对MANET环境中带宽有限、能量有限、存储有限和链路频繁的断接性等特点,提出了基于缓存的移动数据查询问题,证明该问题是NP完全问题,并给出一个多项式时间的近似算法,即最大节点新覆盖数据算法MD.该算法采用贪心策略,查询新覆盖数据量最大的节点,减少了查询次数,并最大限度地减少了网络中的传输时延.然后在MD算法的基础上,同时考虑了节点新覆盖数据量和链路服务质量问题,提出了一种改进的高效的启发式算法,即基于最大节点DD值的算法MDD,有效地减少了能量消耗,最小化数据传输时延,提高了网络的吞吐量.理论分析及实验结果表明提出的数据查询算法能够充分利用缓存节点的数据信息,较好地完成数据查询工作,有效地减少数据收集时延,提高查询效率.  相似文献   

9.
在数据流的查询处理中,聚集查询是一种常用的查询类型.系统经常需要在同一个数据源上处理多个聚集查询,而单独地执行每个查询会导致严重的可扩展性问题和性能问题,因此实现相似查询之间的资源共享变得至关重要.针对多个具有不同时间窗口的聚集查询,本文提出了一种优化的窗口聚集算法OPWA(Optimized Paired Window Aggregation).先根据各时间窗口参数对聚集查询进行分组,使得相似查询可以同步调度;再采用paired技术对数据流进行分割.一方面减少了时间切片的数目,降低了空间的需求;另一方面同步地执行相似查询,减少了系统的计算开销.实验表明OPWA具有较好的性能.  相似文献   

10.
数据源选择策略对提高异构数据集成效率具有重要意义。综合考虑概率统计信息和数据源相对执行质量,提出一种新的数据源选择策略。概率统计信息通过分析查询日志得到,包括针对频繁主题类的数据源覆盖度和数据源集合重叠度。数据源相对执行质量包括查询价格、执行时延、数据源可靠性和用户满意度。给出基于以上标准的数据源选择贪心算法,并通过实验原型验证算法有效性。  相似文献   

11.
一种基于改进的权值调整技术数据源分类算法研究*   总被引:1,自引:0,他引:1  
针对传统的搜索引擎无法正确搜索到Deep Web中隐藏的海量信息,对Web数据库的分类是通向Web数据库分类集成和检索的关键步骤。提出了一种基于权值调整技术的Deep Web数据库分类方法,首先从网页表单中提取特征;然后对这些特征使用一种新的权重计算方法进行估值;最后利用朴素贝叶斯分类器对Web数据库进行分类。实验表明,这种分类方法经过少量样本训练后,就能达到很好的分类效果,并且随着训练样本的增加,该分类器的性能保持稳定,准确率、召回率都在很小的范围内波动。  相似文献   

12.
SEEKER:基于关键词的关系数据库信息检索   总被引:20,自引:3,他引:20  
文继军  王珊 《软件学报》2005,16(7):1270-1281
传统上,SQL是存取关系数据库中数据的主要界面.但是,对于没有经验的用户来说,学习复杂的SQL语法是一件困难的事情.实现基于关键词的关系数据库信息检索,将使用户不需要任何SQL语言和底层数据库模式的知识,用搜索引擎的方式来获取数据库中的相关数据.描述了一个基于关键词的关系数据库信息检索系统SEEKER的设计和实现.现有的关系数据库关键词查询系统只能检索关系数据库中的文本属性,而SEEKER还可以检索数据库元数据以及数字属性.并且,SEEKER采用了更合理的排序公式,支持Top-k查询.实验结果显示,SEEKER具有良好的查询性能.  相似文献   

13.
林子雨  邹权  赖永炫  林琛 《软件学报》2014,25(3):528-546
关键词查询可以帮助用户从数据库中快速获取感兴趣的内容,它不需要用户掌握专业的数据库结构化查询语言,降低了使用门槛.针对基于关键词的数据库查询,基于数据图的方法是一种比较常见的方法,它把数据库转换成数据图,然后从数据图中计算最小Steiner树.但是,已有的方法无法根据不断变化的用户查询兴趣而动态优化查询结果.提出采用蚁群优化算法解决数据库中的关键词查询问题,并提出了基于概念漂移理论的用户查询兴趣突变探查方法,可以及时发现用户兴趣的突变.在此基础上,提出了基于概念漂移理论和蚁群优化算法的查询结果动态优化算法ACOKS*,可以根据突变的用户兴趣,动态地优化查询结果,使其更加符合用户查询预期.在原型系统上得到的大量实验结果表明,该方法具有很好的可扩展性,并且可以比已有的方法取得更好的性能.  相似文献   

14.
王立  王跃清  王翰虎  陈梅 《计算机应用》2011,31(5):1400-1403
使用闪存作为存储介质成为提高数据库系统性能的一条新途径,为了解决闪存数据库系统存储管理技术中基于日志的更新策略存在查询效率低、日志区空间分配不合理、索引更新代价高等问题,提出了基于Bloom Filter的最新版本预测算法,引入记录定位器结构,提出日志概要结构和基于闪存更新查询代价评估模型的自适应机制。实验证明,该方法能够自适应地划分合理的日志区空间,有效提高查询性能,减少各种非聚集索引的更新代价。  相似文献   

15.
实现加密数据的高效安全查询是保证可信数据库安全性和实用性的关键.与目前加密数据查询采用的静态密文分段方法不同,论文基于加密数据的分布和用户查询类型、分布规律,提出了一种自适应加密索引AEI(Adaptive Encrypted Index),实现面向服务的加密数据查询.AEI通过分析查询服务对查询性能的影响,根据承载服务特性、密文数据分布、用户查询分布采用自适应的加密索引划分策略,获得更好的加密数据查询性能.基于AEI方法可在可信数据库环境下实现密文数据查询,并通过了相关性能测试.实验数据表明,与其它加密数据查询方法相比,AEI方法具有更好的适应性和更高的加密数据查询效率.  相似文献   

16.
为了提高重采样算法在不均衡数据学习的性能,提出一种基于粒子群优化的不均衡数据学习方法。通过粒子群优化,以不均衡数据分类评价准则作为目标函数,来优化重采样算法中最佳的采样率,同时对特征进行选择,从而达到最佳的数据分布。该算法在大量UCI数据集上进行了测试,与其他不均衡学习算法进行比较,结果表明该算法具有更高的分类性能; 并验证了同时优化采样率和特征集合,可有效地改进不均衡数据分类效果。  相似文献   

17.
针对一种新型智能进化算法--布谷鸟搜索算法提出了基于多群体并行搜索和自适应步长的改进方法。将改进后的方法引入支持向量机参数优化中,提出了基于改进后布谷鸟搜索算法优化支持向量机模型参数的方法并将其应用于上市公司财务风险评估中,有效提高了财务风险模型的分类性能。仿真结果发现:改进的布谷鸟搜索算法用于优化支持向量机参数不仅有效提高了上市公司季度财务数据分类预测精度,而且相较改进之前的布谷鸟搜索算法、遗传算法和粒子群算法具有更快的收敛速度和稳定性。  相似文献   

18.
传统的搜索引擎只能搜索文字型的资料,显然无法满足用户想通过搜索引擎来取得与图像相关的信息的需求.提出一种图像比对搜索引擎,利用分形图像处理和索引技术来建立图像特征数据库.当用户输入查询图像时,系统对于用户输入的图像也采用与分形图像处理相同的方式取得特征值,然后再与图像特征数据库的特征矢量作比对,达到数据搜索的目的.实验表明,图像比对搜索引擎除了可以找出用户输入的相似图像外,对于查询图像的旋转、模糊或噪声,图像比对搜索引擎也能够找出正确的图像,证明文中方法对图像的容错性和适应性好。  相似文献   

19.
Neural network approaches are end-to-end learning approaches without well-designed training data and achieve high performance in sentiment analysis. Because of complex architecture of a neural network, it is difficult to analyze how they work and find their bottleneck to improve their performance. To remedy it, we propose neural sentiment analysis with attention mechanism. Using attention mechanism, we can find important words to determine sentiment polarity of a sentence. Moreover, we can understand why the sentiment analysis could not classify sentiment polarity correctly. We compare our method with neural sentiment analysis without attention mechanism over TSUKUBA corpus and Stanford Sentiment Treebank (SST). Experimental results show that our method is interpretable and can achieve higher precision.  相似文献   

20.
This study proposes a novel method to improve the well-known AdaBoost algorithm by combining it with a procedure inspired by tabu search. After each iteration of AdaBoost, the attribute used by the weak learner is placed on the tabu list, which prevents it from being utilized by the subsequent weak learners. The length of the tabu list becomes a new meta-parameter of the learning process and can be tuned based on the cross-validation procedure. This study shows that the proposed approach can improve the original AdaBoost procedure, preventing it from over-fitting to training data. This study also demonstrates that the novel method can act as a regularization procedure. Finally, the paper presents results for the proposed algorithm for 20 classification problems from the UCI repository and for face verification and gender recognition problems.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号