共查询到10条相似文献,搜索用时 334 毫秒
1.
2.
个性化服务中的并行K-Means聚类算法 总被引:1,自引:0,他引:1
K-Means聚类算法在基于Web日志的个性化服务领域得到广泛的应用,但是在处理海量数据过程中,传统的(单机)K-Means聚类算法存在着可扩展性差、效率低下、运行时间长等缺点,在充分研究传统K-Means聚类算法的基础上,发现K-Means聚类算法中蕴含的并行性,提出了一种基于用户的并行处理K-Means聚类算法,并将该并行算法应用到个性化服务中对网站用户进行聚类,有效地缩短了用户聚类的时间。 相似文献
3.
本文提出了一种基于语义聚类算法的两阶段Web服务发现机制。第一阶段,给定一个查询,首先通过聚类算法过滤掉哪些内容与查询不符合的Web服务;第二阶段针对这个数据集使用PLSI算法,进一步进行聚类获得一个有限的语义相关组,使用PLSI方法可以发现隐藏在查询和Web服务中的语义概念,这样服务匹配可以在语义概念层次进行。 相似文献
4.
首先分析了序列模式挖掘算法--类Apriori算法,然后重点介绍了如何对Web服务产生的大量日志数据进行收集、预处理,并基于类Apriori算法对Web日志进行分析,发现新模式,为优化网站建设提供有价值数据. 相似文献
5.
6.
对社会化媒体产生的大量短文本进行聚类分析具有重要的应用价值,但短文本往往具有噪音数据多、增长迅速且数据量大的特点,导致现有相关算法难于有效处理.提出一种基于增量式鲁棒非负矩阵分解的短文本在线聚类算法STOCIRNMF.STOCIRNMF基于非负矩阵分解构建短文本聚类模型,通过l2,1范数设计模型的优化求解目标函数提高鲁棒性,同时应用增量式迭代更新规则实现短文本的在线聚类.在搜狐新闻标题和微博短文本数据集上进行相关实验,结果表明STOCIRNMF不仅比现有代表性算法具有更好的聚类性能,而且能够有效对微博话题进行在线检测. 相似文献
7.
针对多雷达数据融合问题,提出了基于时间序列的聚类算法,用于实现航迹相关,即以时间序列为基础把聚类模型转化为基于特征匹配的聚类算法。进一步考虑到多目标密集时,部分来自不同目标的数据可能比来自同一目标的数据更接近,易导致关联错误,为此提出了基于时间序列的模糊聚类算法。对上述两种算法的聚类结果,应用卡尔曼滤波器实现滤波跟踪,在不同的情况下仿真后发现,在跟踪目标较少且相互位置较远的情况下,两种算法均有效,在跟踪目标较多且相互位置靠近的情况下,基于时间序列的模糊聚类算法更有效。 相似文献
8.
《现代电子技术》2016,(1):148-152
考虑到传统Web文档聚类算法聚类效果差、速度慢等问题,针对Web文档聚类算法进行深入研究,使用目标优化策略将Web文档聚类认为是最佳划归文档集合的范畴,并通过引入优化算法进行聚类划分。针对使用SVD表示的Web文档向量存在高维稀疏性等问题,使用LDA对Web文档簇的潜在语义子空间进行重构,从而降低Web文档向量空间的维数,最后在低维空间使用遗传算法进行寻优。常规的GA算法通常存在算法早熟以及局部寻优能力弱等问题。故提出一种改进型GA算法,通过引入自适应对偶种群、自适应终止规则以及新的生成子代规则来保证种群在迭代过程中的多样性以解决算法早熟问题,并且要提高算法的搜索效率以提高算法对局部寻优的能力。最后通过实验验证提出的基于改进型GA算法的Web文档聚类算法的聚类有效性。 相似文献
9.
10.
王正宏 《电子技术与软件工程》2020,(4):208-211
本文研究了ETL任务调度优化问题,提出了一套基于Kettle改进的集群调度策略。该策略将ETL任务调度分为任务预处理、任务分配和任务执行三个阶段。任务预处理阶段根据业务紧迫度和任务负载模式,构建任务初始调度序列。任务分配阶段为了避免集群负载不均衡,依据任务待处理数据规模,引入贪心算法思想进行任务调度分配。任务执行阶段为保证任务执行机会均等,采用高响应比优先算法执行任务。实验结果表明本文所提策略对比Kettle原始策略,能够有效提升任务执行效率、缩短关键任务执行时间。 相似文献