首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
针对在生物信息网络中对复杂和大规模的数据集进行挖掘时所出现的算法挖掘精度低、运行速度慢、内存占用大等问题,提出一种基于关联规则映射的生物信息网络多维数据挖掘算法.该算法结合网络数据集之间的关联映射关系,从而确定网络数据集的关联规则,并引入挖掘因子和相对误差来提高算法的挖掘精度;根据多维子空间中数据集之间的关联程度进行子空间区分以及子空间内数据集区分,从而实现对不同数据集的有效挖掘.在实验中,对不同数据集数量下的算法内存占用情况、算法挖掘精度、算法运行时间进行仿真,从实验结果可以看出基于关联规则映射的挖掘算法可以有效地提高挖掘精度,在减少内存占用和提升计算速度上也具有一定的优势.  相似文献   

2.
一种基于增量式谱聚类的动态社区自适应发现算法   总被引:6,自引:0,他引:6  
蒋盛益  杨博泓  王连喜 《自动化学报》2015,41(12):2017-2025
针对当前复杂网络动态社区发现的热点问题, 提出一种面向静态网络社区发现的链接相关线性谱聚类算法, 并在此基础上提出一种基于增量式谱聚类的动态社区自适应发现算法. 动态社区发现算法引入归一化图形拉普拉斯矩阵呈现复杂网络节点之间的关 系,采用拉普拉斯本征映射将节点投影到k维欧式空间.为解决离群节点影响谱聚类的效果和启发式确定复杂网络社区数量的问题, 利用提出的链接相关线性谱聚类算法发现初始时间片的社区结构, 使发现社区的过程能够以较低的时间开销自适应地挖掘复杂网络社区结构. 此后, 对于后续相邻的时间片, 提出的增量式谱聚类算法以前一时间片聚类获得的社区特征为基础, 通过调整链接相关线性谱聚类算法实现对后一时间片的增量聚类, 以达到自适应地发现复杂网络动态社区的目的. 在多个数据集的实验表明, 提出的链接相关线性谱聚类算法能够有效地检测出复杂网络中的社区结构以及基于 增量式谱聚类的动态社区自适应发现算法能够有效地挖掘网络中动态社区的演化过程.  相似文献   

3.
高维数据流子空间聚类发现及维护算法   总被引:3,自引:2,他引:3  
近年来由于数据流应用的大量涌现,基于数据流模型的数据挖掘算法研究已成为重要的应用前沿课题.提出一种基于Hoeffding界的高维数据流的子空间聚类发现及维护算法--SHStream.算法将数据流分段(分段长度由Hoeffding界确定),在数据分段上进行子空间聚类,通过迭代逐步得到满足聚类精度要求的聚类结果,同时针对数据流的动态性,算法对聚类结果进行调整和维护.算法可以有效地处理高雏数据流和对任意形状分布数据的聚类问题.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性.  相似文献   

4.
邓琨  李文平  陈丽  刘星妍 《控制与决策》2020,35(11):2733-2742
针对现有基于标签传播的复杂网络重叠社区识别方法所存在的社区识别精度不稳定,以及随机性较强等缺陷,提出一种新的基于标签传播的复杂网络重叠社区识别算法NOCDLP(a novel algorithm for overlapping community detection based on label propagation).该算法首先搜索网络中若干以度较高节点为中心的完全子图,并以这些完全子图为起点进行标签传播;其次通过分析节点与社区连接强度以及社区接纳某节点后的社区内部连接紧密度情况给出节点归属社区强度函数,以此作为标签传播的依据提高社区的识别精度;再次,在标签传播过程中,NOCDLP算法设置标签传播控制标记,以避免标签传播算法随机性较强的缺陷;最后,在已形成的社区中通过整理重叠节点获得更准确的重叠社区结构.算法在人工网络与真实网络中完成测试,同时与多个经典算法进行对比分析,实验结果验证了NOCDLP算法是有效的、可行的.  相似文献   

5.
数据流频繁项集挖掘是当今数据挖掘和知识学习领域重要的研究课题之一。数据流高速性、连续性、无界性、实时性对挖掘算法在时间和空间方面提出了更高的要求。传统的数据挖掘算法由于其存储结构需要频繁地维护,其挖掘方式的精度和速度较低,空间、时间效率不高。在基于粒计算和ECLAT算法的基础上提出一种挖掘数据流滑动窗口中top-K频繁项集算法,采用二进制方式存储项,利用位移运算实现增量更新,实施与运算计算项集支持度,同时利用二分查找法插入到项目序表中,输出前K个频繁项。实验结果表明,该算法在K取值不太高时具有较好的时空高效性。  相似文献   

6.
数据流中一种基于滑动窗口的前K个   总被引:1,自引:1,他引:0  
数据流频繁项集挖掘是当今数据挖掘和知识学习领域重要的研究课题之一。数据流高速性、连续性、无界性、实时性对挖掘算法在时间和空间方面提出了更高的要求。传统的数据挖掘算法由于其存储结构需要频繁地维护,其挖掘方式的精度和速度较低,空间、时间效率不高。在基于粒计算和ECLAT算法的基础上提出一种挖掘数据流滑动窗口中topK频繁项集算法,采用二进制方式存储项,利用位移运算实现增量更新,实施与运算计算项集支持度,同时利用二分查找法插入到项目序表中,输出前K个频繁项。实验结果表明,该算法在K取值不太高时具有较好的时空高  相似文献   

7.
针对邻接矩阵的稀疏特性,采用KL散度来计算网络节点间的距离,提出了一种基于KL-Ball的社区挖掘方法.该方法中,一个KL-Ball代表一个社区,它从质心、半径、互信息及密度4个方面来描述社区,其中质心决定了社区在网络中的位置,半径刻画了社区所能覆盖的范围,互信息度量了社区中包含节点的一致性,密度反映了社区包含节点的数量.给定一个半径,期望从复杂网络中寻找具有低信息、高密度的社区,低信息使得社区包含的节点具有较强的一致性,高密度使得一个社区具有较强的凝聚性.为此,定义了一个基于KL-Ball的社区挖掘目标函数,给出它的优化算法,并从理论上证明了该算法的收敛性.依据社区半径的大小及质心的位置,该算法可应用于非重叠社区挖掘以及重叠社区挖掘.实验结果表明,基于KL-Ball的社区挖掘方法可有效地挖掘网络中蕴含的社区结构,包括非重叠的社区及重叠的社区.  相似文献   

8.
随着数据流应用领域的不断扩大,数据流频繁模式挖掘技术逐渐成为数据挖掘领域研究的核心问题。对DSFPM算法进行研究和改进,提出了一种基于界标窗口的数据流频繁模式挖掘算法DSMFP_LW。该算法实现了单边扫描数据流;利用扩展的前缀模式树存储全局临界频繁模式,实现数据增量更新。通过对比实验,结果证明DSMFP_LW算法有较好的时间开销和空间利用率,优于经典的Lossy Counting算法,适合数据流频繁模式挖掘。  相似文献   

9.
基于完全子图的社区发现算法   总被引:1,自引:0,他引:1       下载免费PDF全文
骆挺  钟才明  陈辉 《计算机工程》2011,37(18):41-43
根据复杂网络中同一社区内节点连接比较紧密,社区之间节点连接比较稀疏的特点,提出一种基于完全子图的社区发现算法,通过判别2个节点是否能在网络中与任意一个节点构成3个节点的完全子图来确认该2点是否属于同一社区。对于有些节点并不满足完全子图,或在不同社区同时满足完全子图的情况,采用节点社区归属度解决该节点的归属问题。该算法不需要任何参数设置,在计算机生成网络和真实网络上进行测试,结果验证了该算法的可行性和准确性。  相似文献   

10.
任永功  孙宇奇  吕朕 《计算机工程》2011,37(7):12-14,23
针对复杂网络中难以发现小社区的问题,在CNM算法的基础上,提出一种利用局部信息进行社区挖掘的方法。定义节点的强度及节点对社区的贡献,改进模块度使该方法能适用于带权网络。利用社区局部信息得到小社区集合,将小社区集合作为CNM算法的输入,计算小社区间的模块度增量,凝聚模块度增量小的小社区,并得到最终结果。实验结果表明,该方法具有较高的社区模块度和算法执行 效率。  相似文献   

11.
在众多提高数据挖掘效率的方法中,并行数据挖掘是一个从根本上解决该问题的有效途径.首先指出在数据挖掘过程中,不论采用顺序挖掘还是并行挖掘,都必须以数据挖掘的最终目的为前提,即尽可能多地发现数据中所含有的有用的知识,然后在此基础上提高数据挖掘的较率.在该想法基础上,提出了面向数据特征的数据划分过程,并进一步提出了加权式的并行数据挖掘基本方法.在这种数据挖掘过程中,可以得到相对于部分数据的知识,在很大程度上提高了数据挖掘的动态性能.  相似文献   

12.
基于数据仓库的QAR数据分析   总被引:1,自引:0,他引:1  
针对现有各航空公司分析QAR数据的平台不统一、QAR数据量大、分析和处理数据能力不足、导致海量的数据变成了信息垃圾,在对QAR数据和数据仓库技术研究基础上,结合航空公司关心的问题,设计了QAR数据仓库,给出了数据仓库模型的设计,详细阐述了QAR数据分析主题的提取方法,提出QAR数据仓库的星型模型.通过ETL设计了多维数据集,以超限事件为例展现了对QAR数据的安全分析,为航空公司改进飞行品质、提高安全系数提供依据.  相似文献   

13.
将不完全数据分为了两类:属性值残缺和属性值隐含.对基于这两类不完全数据的数据挖掘方法分别进行了探讨,给出了相应的处理方法,并对这些方法及其应用进行了讨论.属性值残缺的处理主要采用一系列"补漏"的方法,使数据成为完全数据集;属性值隐含的处理则通过EM算法来优化模型的参数,弥补数据的不完全性.  相似文献   

14.
Data cleaning is a pervasive problem for organizations as they try to reap value from their data. Recent advances in networking and cloud computing technology have fueled a new computing paradigm called Database-as-a-Service, where data management tasks are outsourced to large service providers. In this paper, we consider a Data Cleaning-as-a-Service model that allows a client to interact with a data cleaning provider who hosts curated, and sensitive data. We present PACAS: a Privacy-Aware data Cleaning-As-a-Service model that facilitates interaction between the parties with client query requests for data, and a service provider using a data pricing scheme that computes prices according to data sensitivity. We propose new extensions to the model to define generalized data repairs that obfuscate sensitive data to allow data sharing between the client and service provider. We present a new semantic distance measure to quantify the utility of such repairs, and we re-define the notion of consistency in the presence of generalized values. The PACAS model uses (X, Y, L)-anonymity that extends existing data publishing techniques to consider the semantics in the data while protecting sensitive values. Our evaluation over real data show that PACAS safeguards semantically related sensitive values, and provides lower repair errors compared to existing privacy-aware cleaning techniques.  相似文献   

15.
介绍了数据挖掘算法的两种传统数据访问方式及其缺点,提出了新的数据访问方式——基于Cache的数据挖掘算法的数据访问方法,该方法提供了三种模式缓存数据:单列模式、多列模式、混合模式,以适用多种数据挖掘算法的需要。设计实现了这种数据挖掘专用数据访问组件,该组件兼顾了传统访问方式的优点,实验证明在占用有限系统资源的情况下,保证了高效的数据访问效率并支持对海量数据的访问。  相似文献   

16.
When users store data in big data platforms,the integrity of outsourced data is a major concern for data owners due to the lack of direct control over the data.However,the existing remote data auditing schemes for big data platforms are only applicable to static data.In order to verify the integrity of dynamic data in a Hadoop big data platform,we presents a dynamic auditing scheme meeting the special requirement of Hadoop.Concretely,a new data structure,namely Data Block Index Table,is designed to support dynamic data operations on HDFS(Hadoop distributed file system),including appending,inserting,deleting,and modifying.Then combined with the MapReduce framework,a dynamic auditing algorithm is designed to audit the data on HDFS concurrently.Analysis shows that the proposed scheme is secure enough to resist forge attack,replace attack and replay attack on big data platform.It is also efficient in both computation and communication.  相似文献   

17.
当前数据采集器在数据传输过程中,存在数据传输效率低,数据安全性得不到保障等问题。现在针对这些问题,设计了一种便携式数据采集器的数据传输控制系统。数据传输控制系统通过FPGA转换器接口对数据进行采集,将采集到的数据除杂并存储在DDR2 SDRAM中,然后将这些数据应有核心处理的FIFO芯片进行处理,保障数据传输过程中的数据传输效率。对系统的数据传输效率与丢包率进行实验,实验结果表明,便携式数据采集器的数据传输控制系统有效减小数据丢包率,对于数据攻击的控制准确度达到98.92%。  相似文献   

18.
基于GML的多源异构空间数据集成研究   总被引:5,自引:0,他引:5  
深入分析了数据格式转换、直接数据访问和数据互操作3种数据集成模式,描述了一个基于GML数据互操作模式的、多源异构空间数据集成模型,并分析了模型的运行机制和关键技术.该模型通过使用相应的GML转换接口把分布式异构空间数据源转化为统一的GML格式文档,通过集成引擎和相应的集成规则对异构空间数据进行有效的集成,实现数据共享的目的.  相似文献   

19.
远程复制系统数据一致性研究与实现   总被引:2,自引:0,他引:2  
凌宗虎  李先国  韩志勇 《计算机应用》2005,25(11):2638-2640
针对远程数据复制容灾系统中的数据一致性问题,提出了保证数据一致性和视图一致性并优化系统性能的实现思想,即使用日志卷记录用户请求顺序,通过保持主、从两端数据卷上数据块的更新顺序来保证数据一致性,对于不同的数据类型采用不同的传输方法。论述了它的组织结构、实现流程以及关键技术。  相似文献   

20.
为了解决数据问题,数据管理技术的价值得到了多家公司的认可,并出现了许多关于数据管理的想法和研究。然而,在实际的业务数据管理中,仍然存在一些问题。因此,文章基于对数据中台架构的数据管理进行了深入分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号