共查询到18条相似文献,搜索用时 46 毫秒
1.
在居住热区分析应用中,已有的CLIQUE算法密度阈值初始化多采用主观性较强的经验值,容易对聚类结果造成不良影响.针对该问题提出了一种自适应密度阈值选取的CLIQUE算法(APS-CLIQUE,Adaptive Parameter Selection-CLIQUE),并对聚类边界进行了优化处理.该算法首先使用四分位数箱型模型排除数据形态两端对结果的干扰,解决密度阈值自适应问题;其次通过边界网格的判定,提高了聚类边界精度.使用UCI标准数据集、成都市出租车GPS轨迹浮动数据集进行了对比实验,实验结果表明本文算法的Dunn指数较CLIQUE算法分别提高了26.53%、28.66%. 相似文献
2.
一种有效的并行高维聚类算法 总被引:4,自引:0,他引:4
针对CLQUE算法聚类结果精确性不高的缺点,提出利用小波变换来生成自适应网格的方法对CLIQUE算法进行改进,将改进算法并行化以增强聚类维数升高时算法的可伸缩性,并将其应用于药品的销售预测。实验表明本算法聚类结果的精确性高,可伸缩性好,并且有效地降低了计算复杂度。 相似文献
3.
4.
单节点运行的传统SON算法能够有效降低CPU和I/O负载,而且算法仅需要对整个事务数据集扫描两次。但是在算法执行的阶段一中发现局部频繁项集时采用的Apriori算法仍然需要对每个分区进行多次扫描。在深入研究SON算法的基础上,根据MapReduce编程模型提出了基于FPgrowth的SON算法的并行化实现。实验结果表明,基于FP-growth的并行SON算法不仅降低了传统SON算法的运行时间,并且随着分区数目的增加还能获取比较好的加速比。 相似文献
5.
《计算机应用与软件》2016,(11)
针对当前朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,提出一种基于Map Reduce的Dirichlet朴素贝叶斯文本分类算法。算法首先根据体征词语义因素以及类内分布情况对权重进行加权调整,以此对的计算公式进行修正;引入统计语言建模技术中的Dirichlet数据平滑方法来降低数据稀疏对分类性能的影响,并在Hadoop云计算平台采用Map Reduce编程模型实现本文算法的并行化。通过测试实验对比分析可知,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,并具有优良的可扩展性和数据处理能力。 相似文献
6.
为了解决子空间聚类算法时间复杂度偏高和网格划分不太合理的问题,通过对数据空间进行网格划分并寻找稀疏区域来发现簇的边界,对算法的时间复杂度进行优化,达到对子空间聚类算法CLIQUE进行了优化和改进目的.优化算法采用了自适应的网格划分方法,提高了发现高维子空间的可能性.优化算法通过对剪枝方式的优化,有效地控制了算法的复杂度.实验结果表明,该算法在精度、时间复杂性等方面的性能良好. 相似文献
7.
《计算机应用与软件》2016,(6)
针对DHP(direct hashing and pruning)算法对大数据挖掘关联规则存在执行时间过长、效率不高的问题,对DHP算法的并行化策略进行了研究。根据云计算平台Hadoop的MapReduce并行编程模型,设计了一种并行DHP算法,给出了算法的总体流程和Map函数、Reduce函数的算法描述。与DHP算法相比,并行算法利用了Hadoop集群强大的计算能力,提高了从大数据集中挖掘关联规则的效率。通过实例分析了并行DHP算法的执行过程,在多个数据集上进行了实验。实验结果表明:并行DHP算法对大数据具有较好的加速比和可扩展性。 相似文献
8.
非结构网格上求解粒子输运方程的可扩展并行算法是一个亟待解决的课题。本文在文献[1]并行流水线勖扫描算法的基础上提出了一种改进算法。改进后的算法可以有效降低原算法对并行机通信延迟的依赖,减少程序运行的通信时间,达到了缩短并行计算时间和提高并行性能的目的。针对二维粒子输运问题进行的数值实验表明,从64扩展到256个处理机时,加速比呈线性增长,改进算法比原算法的并行计算时间最大减少了19%。 相似文献
9.
CLOPE算法在大规模、稀疏、高维的分类数据集的聚类上取得了很好的聚类效果.然而该算法受输入数据的顺序影响,难以获得稳定且全局最优的聚类结果.因此提出一种基于等分划分再排列思想的p-CLOPE算法对这一缺陷进行改进.在p-CLOPE算法的每一轮迭代过程中,对输入数据集等分为p部分再排列生成不同顺序的p!份数据集,对这些数据集分别聚类并选取最优的聚类结果作为下一轮迭代的输入.为了降低上述过程的时间复杂度,提出了一种中间结果复用策略,较大程度地提高了聚类速度.最后,在Hadoop平台上实现了一个包含p-CLOPE相关算法的开源聚类工具.实验表明:p-CLOPE算法比CLOPE算法取得了更优的聚类结果.对蘑菇数据集,当CLOPE算法取得最优聚类结果时,p-CLOPE比CLOPE取得了高35.7%的收益值;在处理大量数据时,并行p-CLOPE比串行p-CLOPE极大地缩短了聚类时间,并在计算资源充足时,取得了接近p!倍的加速比. 相似文献
10.
一种实用并行细化算法及其实现 总被引:7,自引:0,他引:7
介绍一种实用并行细化算尘,对细化模板和细化条件作了分析,实验结果表明,该细化算法获得取的图象骨架不仅避免了过度腐蚀,还具有良好的连通性。 相似文献
11.
12.
Smith-Waterman算法OpenMP并行化 总被引:1,自引:0,他引:1
基因比对可以实现对诲量生物信息的分析和处理,其中Smith—Waterman算法实现的比对信息精确度较高,但是处理速度慢。本文利用共享存储编程的工业标准OpenMPX;ySmith-Waterman算法进行了并行化实现。在一个拥有四个双核CPU的SMP节点上的测试表明,共享并行化使得该局部比对算法的速度提高了40%。 相似文献
13.
14.
15.
武继刚 《计算机工程与设计》1996,17(5):60-64,F003
文中用合并选择的思想及堆上的最佳算法,给出了求解选择问题的一个新算法及其相应的并行化。将串行合并选择算法的复杂度nLogk+O(n)降低到(nLogk)/2+(nLogLogk)/2+O(n),并保持了原并行算法的结构,在SIMD树型机器的并行计算模型上,并行运行 相似文献
16.
分类是数据挖掘中重要的研究课题。文章介绍了SPRINT分类算法。为了提高该算法在海量数据库中分类的总体效率,笔者提出了两种处理离散属性的新方法,这些方法能明显减少求最佳分割点的运算量,提高算法的执行速度。 相似文献
17.
KD树作为一种用于查询高维键值的流行算法, 由于其准确性高、可扩展性强与较快的查询速度而应用于多媒体检索领域, 但缓慢的建树效率已不能很好的满足当前的应用场景. 针对KD树的低效建树过程, 作者探寻并分析了KD树建树现存的并行潜能并提出了一种面向KD树建树过程的多核并行算法—ParK(Parallel KD-Tree). ParK探求了不同的并行模式来充分利用现代硬件中的计算资源, 并在此基础上提出了一种新的内存分配策略来解决并行处理中的数据争用状况. 实验结果表明Park相比于原始串行版本最高能够在16核的服务器上达到21.75倍的加速. 相似文献
18.
离群数据挖掘是数据挖掘领域的一个研究分支,而聚类算法分析则是进行离群数据挖掘的重要研究方法之一。文中首先分析研究离群数据挖掘方法,对多个离群数据挖掘算法进行分析比较,讨论各自的优点和不足,同时针对高维空间数据的特点,分析挖掘高维空间数据中的离群点方法。其次对聚类分析算法进行讨论,分析一种基于网格和基于密度的聚类方法——聚类高维空间算法(CLIQUE算法),运用它可以更好地挖掘高维空间中的离群数据。提出了CLIQUE算法的有待改进的思想,为以后的研究指明方向。 相似文献