期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

DBCC-Join:一种新的高速缓存敏感的磁盘连接算法 总被引：1，自引：0，他引：1

韩希先杨东华李建中《计算机学报》2010,33(8)

在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数.文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率.所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组.文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果.据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章.实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比. 相似文献

2.

基于条件生成模型的高效近似查询处理框架

白文超韩希先王金宝《浙江大学学报(工学版)》2022,56(5):995-1005

提出新型的近似查询处理方法,以克服近似查询处理任务中数据偏斜所导致的查询准确率低的问题. 该方法以条件生成对抗神经网络为基础,融入条件变分自编码器,保证算法执行的稳定性,提高模型准确率;使用Wasserstein距离衡量模型误差,防止模型坍塌. 基于该条件生成模型实现近似查询处理,回答用户查询而无须访问底层数据,避免磁盘交互,并与聚集预计算相结合,构成高效的近似查询处理框架,能更加准确、快速地回答交互式查询. 设计高效的表决算法,对模型生成的样本以及样本内部数据进行过滤,提高生成的样本质量,最小化查询误差. 实验结果表明,与其他近似查询处理算法相比,该方法可以有效克服数据偏斜的影响,同时能够在更短的交互时间内更加准确地回答用户查询. 相似文献

3.

PAA:海量数据上一种有效的近似聚集查询算法

韩希先李建中高宏《计算机研究与发展》2014,(1)

聚集查询是一种常用但是耗时的数据库操作.相对于准确查询,以少得多的响应时间向用户返回满足置信区间的近似结果通常是一种更好的选择.现有的近似查询方法无法在海量数据上高效地处理满足任意精度的近似聚集查询.提出一种新的算法PAA(partition-based approximate aggregation)来有效处理满足任意置信区间的近似聚集.维属性的数据空间被划分为同样大小的空间区域,每个分片维护着维属性落入对应空间区域的元组.PAA算法维护表的随机样本RS,其执行包括两个阶段.在阶段1,如果利用预构建的随机样本RS不能返回满足用户要求的近似结果,那么在阶段2,PAA算法从与查询区域相交的空间区域对应的分片集合IPS中获得更多的随机元组.PAA算法的特色在于:1)如何在不知道IPS包含的每个分片满足谓词的元组数量情况下,从IPS中获得需要的随机元组;2)如何有效减少阶段2中的随机I/O费用.实验表明,相对于现有方法,PAA算法可以获得两个数量级的加速比. 相似文献

4.

TKEP:海量数据上一种有效的Top-K查询处理算法 总被引：1，自引：0，他引：1

韩希先杨东华李建中《计算机学报》2010,33(8)

在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数.文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率.所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组.文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果.据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章.实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比. 相似文献

5.

分布式有序表中一种有效的在线计划批量插入方法

韩希先李建中《计算机研究与发展》2009,46(Z2)

为有效地存储指数级增长的数据集,人们通常利用分布式有序表来存储数据,数据批量插入是数据库系统中的一个十分常见的操作,所以如何在分布式有序表中高效地执行数据批量插入操作就十分重要.现有方法是利用一个插入前的计划过程,可以较好地执行批量插入操作,可是该方法要求获得所有新数据,关键在于获得新数据较准确的数据分布,提出一种在线计划的批量插入操作,不需要等待所有的数据接收完毕才开始执行计划过程,而是根据获得新数据的样本,利用内核密度估计方法,较准确地估计新数据分布,并且还提供了计算估计分布置信区间的方法,如果估计分布的置信区间超过系统给定的阈值就可以执行计划操作.在实验给定数据集上,系统只需要接收0.1%的样本数据就可以得到概率为95%、误差在0.05之内的估计分布. 相似文献

6.

一种改进的Chord路由算法 总被引：1，自引：1，他引：1

姜守旭韩希先李建中《计算机应用》2006,26(4):918-921

如何有效地确定存储给定数据项的节点在P2P中非常重要。Chord是一种比较成功的P2P路由算法，但是Chord的路由表存在严重的信息冗余。提出了一种对Chord的改进算法，继承了Chord算法简单、高效、可靠、负载平衡及开销少的优点，对Chord的路由表提出了改造，增加了路由表中的有效信息，提高了查询效率。相似文献

7.

P2P电子商务平台DEP中搜索机制的研究

姜守旭韩希先王建坤李建中《计算机工程与设计》2007,28(3):674-679

将P2P应用于电子商务,面临的首要挑战就是如何表达和存储电子商务数据,以及如何高效地搜索到所需数据[1].针对设计的一个电子商务平台DEP模型,通过引入移动代理和缓存优化机制提高了DEP中的搜索效率.此外还对几种不同的搜索方案进行了对比分析与实验,结果表明DEP本身具有很好的可扩展性,与传统模型相比可以很大程度地降低数据检索时的查询路由次数及系统的通讯量,优化后的搜索算法也取得了很好的优化效果. 相似文献

8.

基于超节点的Chord系统

姜守旭韩希先李建中《小型微型计算机系统》2007,28(2):266-270

Chord是一种比较成功的结构化P2P路由算法,但是网络节点性能的差异,影响了整个系统的效率;网络中一部分节点的频繁加入和退出所引起的系统震荡也影响了系统的性能;同时,结构化系统不提供相关节点的匿名性,也是结构化系统的一个不足之处.本文利用节点性能的差异,提出了基于超级节点的Chord路由算法,在Chord系统中形成节点簇,不但提高了系统的效率,而且能够有效地处理系统震荡问题,同时,为Chord系统提供了一定的匿名性. 相似文献

9.

海量数据上的近似连接聚集操作

韩希先杨东华李建中《计算机学报》2010,33(10)

连接聚集操作是一种常用并且非常耗时的数据库操作.相对于准确查询,满足用户给定置信区间的近似结果由于其快得多的响应时间,更受用户的欢迎.作者分析发现现有的工作无法以既高效又满足给定的任意置信区间方式来处理近似连接聚集,因此提出了一种新的算法--(p,ε)-近似连接聚集查询(pε-AJA)来有效地返回满足任意置信区间的近似连接聚集结果.文章提出且预计算两个数据结构:连接随机样本 (JRS)和连接位置索引对表(JPIPT).利用JRS,pε-AJA向用户返回近似结果的快速响应.如果利用JRS得到的近似结果没有满足给定的置信区间,pε-AJA 利用JPIPT获得更多的随机连接元组.文中提出一种采样算法来获得JPIPT给定数量的样本,并且利用获得的JPIPT样本,该文提出的算法可通过对连接表的一遍顺序扫描获得连接元组.该文还提供了JPIPT和JRS有效的构建和维护算法.实验结果表明:pε-AJA可以获得相对于准确查询1～5个数量级的加速,并且可以有效地完成JPIPT和JRS的构建和维护操作. 相似文献