排序方式: 共有54条查询结果,搜索用时 0 毫秒
41.
42.
针对MapReduce框架与传统关系型数据库兼容性不好的问题,提出了一种基于分块结构的分布式关系数据库ChunkDB.并对MapReduce架构进行了扩展设计,使ChunkDB与MapReduce有效结合,将MapReduce的扩展性、易操作性、高并行性与关系数据库的索引等查询优化优势相结合.实验证明基于MapReduce的ChunkDB数据库能够为数据仓库应用提供快速高效的并行查询. 相似文献
43.
在以往的BSP(Bulk Synchronous Parallel)系统中,作业调度都是采用基于单队列的优先级调度策略.它的优点是实现简单,但作业队列维护开销大,低优先级作业存在无限等待的问题.论文提出了面向BSP系统基于多等待队列的按优先级作业调度算法,以高响应比优先级队列为作业组织方式,并加入了作业优先级的动态调整策略,避免了低优先级作业因长期得不到执行而废弃的情况.目前,论文所提算法已成功运行于BC-BSP系统中.文中通过实验进一步证明,融合了作业优先级调整策略的基于多等待队列的作业调度算法较传统的单队列优先级调度算法在队列维护方面,能降低30%~50%的维护代价.另外,在兼顾作业的初始优先级的同时,能够减少低优先级作业的等待时间,避免低优先级作业的无限等待问题. 相似文献
44.
45.
46.
一种面向数据挖掘预处理过程的领域知识的分类及表示 总被引:6,自引:0,他引:6
本文强调了领域知识应用于数据预处理过程的特点和意义,给出了面向数据预处理技术的领域知识的分类和表示,设计了面向数据预处理技术的领域知识的存储结构和将领域知识应用于数据预处理过程的算法. 相似文献
47.
基于最长顺序频繁词组的Web文献检索结构 总被引:1,自引:0,他引:1
目前,大多数Web文献不能满足不同层次科研人员的查询要求.分析了这一问题产生的原因,提出建立辅助的Web文献检索结构以帮助用户更准确地获取所需文献的思想.基于该思想,设计了通过挖掘最长顺序频繁词组抽取文献特征的算法,提出了能够表现特征之间、文献之间、特征与文献之间关系的扩展的特征层次树结构及其构建方法.实验表明,挖掘最长顺序频繁词组在抽取文献特征方面比常用的TFIDF具有更大的优势.理论分析说明,扩展的特征层次树具有压缩的存储结构、词组与文献关系的表现方式和更好的辅助检索功能. 相似文献
48.
CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法 总被引:1,自引:0,他引:1
数据立方的计算是数据仓库和OLAP研究的一个重要方向,同时又是数据仓库中代价很大的操作。针对在生物信息、统计分析、文本处理等领域中存在的基数较小的高维数据集,X.L.Li等人提出了Frag-Cubing算法。为了提高Frag-Cubing算法的效率,本文提出了基于分片思想的算法CBFrag-Cubing。该算法使用了位图索引结构,优化了数据立方的存储,减少了数据立方的计算时间。实验表明,与Frag-Cubing算法相比,该算法在存储空间上至少节省25%,在计算时间上节省30%。 相似文献
49.
支持个性化推荐的用户分类规则挖掘的研究 总被引:1,自引:0,他引:1
提出了一种应用决策树分类技术进行用户分类的方法 ,通过对 Web会话文件的处理、赋予类标记及决策树分类过程 ,实现了根据访问模式对用户的分类 ,以便个性化推荐和指导能够针对不同类别的用户进行 ,从而提高 E- Ser-vices中个性化服务的质量 .还讨论了待分类数据集中条件属性的选择和决策属性的类标记问题 ,给出了应用分类规则进行推荐的过程 相似文献
50.
SimRank 算法利用网络结构来评估网络中任意2点的相似性,它被广泛应用于社交网络和链接预测等诸多领域中.近年来,随着大数据技术的发展,SimRank 算法处理的数据不断增大,人们利用MapReduce 等分布式计算模型设计实现分布式的大规模 SimRank 算法来适应大数据处理的需求.但是,由于 SimRank 算法包含开销较大的迭代过程,每次迭代之后都需要一个全局同步,且每次迭代的计算复杂度高、通信量大,SimRank 算法不能在分布式环境下高效地实现.1)提出 Asyn‐SimRank 算法,该算法采用迭代‐累积的方式完成迭代计算,异步执行 SimRank 的核心迭代过程,避免了大规模分布式计算中的大量同步开销,同时有效降低计算量并减少通信开销;2)提出关键点优先调度计算,提升了 Asyn‐SimRank 算法的全局收敛速度;3)证明了 Asyn‐SimRank 算法的正确性和收敛性以及关键点优先调度计算的有效性;4)支持异步迭代的分布式框架 Maiter 上实现了 Asyn‐SimRank 算法.实验结果显示,相比较于 Hadoop ,Spark 上实现的 SimRank 算法和 Delta‐SimRank 算法,Asyn‐SimRank 算法大大提升了算法的计算效率,加速了算法收敛. 相似文献