首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 171 毫秒
1.
大数据中一种基于语义特征阈值的层次聚类方法   总被引:1,自引:0,他引:1  
云计算、健康医疗、街景地图服务、推荐系统等新兴服务促使数据的种类和规模以前所未有的速度增长,数据量的激增会导致很多共性问题。例如数据的可表示,可处理和可靠性问题。如何有效处理和分析数据之间的关系,提高数据的划分效率,建立数据的聚类分析模型,已经成为学术界和企业界共同亟待解决的问题。该文提出一种基于语义特征的层次聚类方法,首先根据数据的语义特征进行训练,然后在每个子集上利用训练结果进行层次聚类,最终产生整体数据的密度中心点,提高了数据聚类效率和准确性。此方法采样复杂度低,数据分析准确,易于实现,具有良好的判定性。  相似文献   

2.
3.
郑琳  张辉 《现代电子技术》2020,(15):115-118
传统的大数据聚类挖掘技术由于迭代次数过多,使其并行效率下降,为此,设计云环境下基于群智能算法的大数据聚类挖掘技术。在云环境下采用群智能算法初始化聚类中心,计算数据密度参数及类间距离,根据计算结果更新聚类中心,输出距离最小的最优解即为最优划分聚类,设计并行化聚类挖掘,以输出的最优解为依据,完成大数据聚类挖掘。实验结果表明,在数据集相同的情况下,与传统的两种聚类挖掘算法相比,文中设计的云环境下的群智能算法的大数据聚类挖掘算法随着迭代次数的增加,依然保持较高的并行效率,没有出现下降的趋势,说明该算法适合应用在实际项目中。  相似文献   

4.
讨论了中文文本聚类的现状以及存在的问题,介绍了向量空间模型,详细阐述了潜在语义索引理论以及采用该模型进行中文文本聚类的主要步骤,最后采用两种模型进行了实验对比,实验表明采用潜在语义索引模型可以取得更好的聚类效果。  相似文献   

5.
针对轨迹聚类结果的不可靠性,提出一种基于多聚类结果融合的轨迹聚类方法MRMTC.对于多聚类器产生的多个聚类代表轨迹,提出了轨迹合并算法,实现了多个聚类代表轨迹的合并.代表轨迹合并算法以平均扫描线距离函数作为共识函数,通过共识函数对代表轨迹间的相似度进行比较,最后合并相似的代表轨迹.实验表明基于融合的轨迹聚类方法,可以获...  相似文献   

6.
一种可分类数据的聚类算法及其应用   总被引:4,自引:1,他引:3  
文章给出了一种新颖、高效的用于可分类数据的聚类算法-WeiSC,该算法具有好的精确性,适合大规模数据库中数据的聚类。通过理论推导和实验,证明了算法的正确性和有效性,并结合入侵检测中操作行为的识别,给出了该算法的一个应用实例。  相似文献   

7.
基于最小包含球的大数据集快速谱聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
钱鹏江  王士同  邓赵红  徐华 《电子学报》2010,38(9):2035-2041
 GRC (Graph-based Relaxed Clustering)是一种具有便捷性和自适应性的谱聚类算法,但对于大数据集,繁重的时间开销限制了其实用性.针对此不足,该文通过对GRC聚类指示向量进行约束并融合中心约束型最小包含球(Center-Constrained Minimal Enclosing Ball,CCMEB)理论提出了大数据集快速谱聚类算法CCMEB-CGRC.该算法继承GRC的便捷性和自适应性的同时又具有渐近线性时间复杂度的优点,从而较好地解决了大数据集快速有效谱聚类的问题.仿真实验的结果验证了该算法的有效性和快速性.  相似文献   

8.
基于云计算的大数据聚类挖掘,需要结合改进粒子群算法、k-means算法的优势,提出基于改进粒子群优化(Particle Swarm Optimization,PSO)的k-means聚类算法,设置自调节惯性权重、云变异算子,根据数据集种群的进化程度,调整粒子群算法的全局搜索、局部搜索能力,追踪数据粒子的个体极值、全局极值,更新每个数据个体在解空间中的点位置、更新速度,并在数据种群进化到一定程度时进行变异操作,选择全局极值作为期望Ex来控制种群迭代次数,避免数据挖掘陷入早熟收敛、局部最优解的情况。  相似文献   

9.
郝一川 《信息技术》2022,(8):126-130
为了给旅行者提供决策帮助,提出基于GPS轨迹的旅游兴趣点智能挖掘方法。采用GPS技术收集用户活动轨迹并聚类轨迹点,聚类点分类集合后进行分割,实现道路拟合,得到旅游兴趣点路网;通过用户和相似用户在此路网中的签到次数获取兴趣点,并归一化兴趣点评分结果,构建基于用户和社会关系的模型,解决协同过滤扩展问题,利用兴趣点流行度建立地理相关性模型进行二次过滤,求出用户可能感兴趣的兴趣点;采用标准变化加权法融合三种模型,构建兴趣点挖掘模型。实验结果表明,所提方法的内存分配合理,均方根误差低和AUC曲线低。  相似文献   

10.
一种基于数据场的层次聚类方法   总被引:21,自引:0,他引:21  
聚类分析是统计、模式识别和数据挖掘等领域中一个非常重要的研究课题,具有广泛的应用前景.受物理学中场论思想的启发,提出一种基于数据场的层次聚类方法.该方法将物质粒子间的相互作用及其场描述方法引入抽象的数域空间,通过模拟对象在虚拟数据场中的相互作用和运动实现数据对象的自组织层次聚集.实验显示,该方法不依赖于用户输入参数的仔细选择,能够发现任意大小和密度的非球形聚类,对噪声数据不敏感,且具有近似线性的收敛速度.  相似文献   

11.
开发了一个基于云计算的并行分布式大数据挖掘平台——PDMiner.PDMiner实现了各种并行数据挖掘算法,如数据预处理、关联规则分析以及分类、聚类等算法.实验结果表明,并行分布式数据挖掘平台PDMiner中实现的并行算法,能够处理大规模数据集,达到太字节级;具有很好的加速比性能;实现的并行算法可以在商用机器构建的并行平台上稳定运行,整合了已有的计算资源,提高了计算资源的利用效率;可以有效地应用到实际海量数据挖掘中.在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务.  相似文献   

12.
Clustering is one of the most widely used techniques for exploratory data analysis.Spectral clustering algorithm,a popular modern clustering algorithm,has been shown to be more effective in detecting clusters than many traditional algorithms.It has applications ranging from computer vision and information retrieval to social science and biology.With the size of databases soaring,clustering algorithms have scaling computational time and memory use.In this paper,we propose a parallel spectral clustering implementation based on MapReduce.Both the computation and data storage are distributed,which solves the scalability problems for most existing algorithms.We empirically analyze the proposed implementation on both benchmark networks and a real social network dataset of about two million vertices and two billion edges crawled from Sina Weibo.It is shown that the proposed implementation scales well,speeds up the clustering without sacrificing quality,and processes massive datasets efficiently on commodity machine clusters.  相似文献   

13.
现有数据挖掘算法的缺点是在挖掘大数据时会出现大量候选模式,从而造成可伸缩性瓶颈,个别算法虽然不生成候选模式,但是计算代价高昂,缺乏有效剪裁,运行效率存在瓶颈.为此,提出一个全新的单阶段不生成候选模式的数据挖掘算法,其创新性有3点:一是基于前缀生长的模式枚举和基于效用上限值评估的剪裁策略;二是基于稀疏矩阵和虚拟投影的效用信息表达;三是节省存储空间的深度优先搜索方法.大量实验表明,新算法的时间效率比现有算法高5倍以上,并且内存使用量比现有算法少20%~60%,可伸缩性高.  相似文献   

14.
对数据挖掘的算法作了分析和比较,选取蚁群聚类算法对互动业务中的典型平台--IPTV业务进行研究,实现用户行为特征群偏好分析.  相似文献   

15.
李明桂  肖毅  陈剑锋  许杰 《通信技术》2015,48(3):346-350
安全态势感知是掌控网络空间的听觉和视觉,安全事件的获取是安全态势感知的基础。在大数据时代,安全事件的挖掘是一个典型的大数据问题。运用大数据技术进行网络安全研究,构建了一种安全事件挖掘框架,结合在线反馈和离线分析两种方式,从海量、多源、异构的原始数据中,提取有效的安全事件,发现安全风险、潜在威胁和未知攻击。挖掘结果可用于安全态势感知、攻击追踪溯源、攻击知识学习等进一步研究。  相似文献   

16.
具有语义最小支持度的关联规则挖掘方法   总被引:1,自引:0,他引:1  
现有的关联规则挖掘方法中,大多采用单一的最小支持度.实际上,应该根据数据的特点设置不同的最小支持度.文中针对这一问题,将语义信息引入关联规则挖掘之中,提出了具有语义最小支持度的关联规则挖掘方法.该方法首先计算项目之间的语义相关度,然后根据候选集的语义相关度对候选集合进行过滤,最后根据候选集的语义相关度,确定其语义最小支持度.实验表明:具有语义最小支持度的关联规则挖掘方法比传统的关联规则挖掘方法能够更好地实现关联规则的挖掘.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号