首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 106 毫秒
1.
一种动态数据流的实时趋势分析算法   总被引:4,自引:0,他引:4  
有效的趋势提取可提供监控对象早期预警、评估监控对象状态和决策支持信息.基于增量递推最小二乘回归参数估计和广义似然比变化点检测算法,提出一种动态数据流趋势分析算法.其计算实时性和分精度均比现有算法有明显的改进.仿真实验结果验证了该算法的有效性.  相似文献   

2.
传统定性趋势分析方法中,存在划分片段宽度难以自适应、依赖人为设定阈值、算法复杂等问题,针对这些问题,提出了一种新的基于滑动窗口的定性趋势分析方法。方法采用一个滑动的窗口,并对窗口内的数据进行线性拟合,根据拟合的情况扩大或缩小窗口,确定每个片段的最佳大小,将每个片段识别为上升、下降或不变,最终获取数据的定性趋势。在化工过程趋势分析应用的结果表明,该方法能够更为有效地提取、识别出趋势,具有较高的准确性和较低的复杂度,为之后的数据压缩、故障诊断等打下坚实基础。  相似文献   

3.
基于动态特征提取和神经网络的数据流分类研究   总被引:1,自引:0,他引:1  
为提高数据流分类的精确性和适应性,提出了一种新的数据流分类方法。该方法基于总体最小二乘法对数据流进行分段拟合,并将传统曲线分析算法——滑动窗口(SW)和在线数据分割(OSD)进行结合、改进,以可变滑动窗口算法实现对数据流的合理分割,提高趋势分析精度。在此基础上,对数据流进行动态特征提取和判断,并以神经网络对数据流特征进行模式识别,精确分类,进而对监控对象提供早期预警、状态评估和决策支持。实验结果表明,该方法能对数据流进行有效的动态特征描述,分类效果明显。  相似文献   

4.
SWFPM:一种有效的数据流频繁项挖掘算法*   总被引:1,自引:0,他引:1  
分析了数据流频繁项挖掘算法EC的不足之处,如不能准确地挖掘最近一段时间内数据流的频繁项。提出了一种频繁项样本特征复合四元组的数据结构来保存样本集合,在此基础上,提出了一种基于滑动窗口的数据流频繁项挖掘算法——SWFPM。该算法能准确地挖掘出该滑动窗口中的频繁项。实验数据采用IBM合成数据发生器产生的顾客购物数据和1998年世界杯官方网站的访问日志数据。实验结果表明,该算法具有很高的频繁项挖掘准确度、快速的数据处理能力。  相似文献   

5.
数据流中的关联规则在预测和在线分析系统中有重要应用.现有的研究大多集中在事务数据模型上,鲜有对数据项之间的关联规则挖掘.由于数据的实时性特点,用户又往往对新产生的数据所包含的信息更感兴趣.为了实时而准确地挖掘最近一段时间内数据项间的关联规则,提出了MARSW(mining association rules on sliding window)算法,利用滑动窗口模型对数据流进行关联规则挖掘.MARSW算法在给定的误差范围内,能够有效去除历史数据的影响,并以有限的空间代价快速挖掘大量数据间存在的关联规则.大量仿真实验结果表明,MARSW算法具有较高的效率和优良的可扩展性.  相似文献   

6.
数据流中一种基于滑动窗口的前K个   总被引:1,自引:1,他引:0  
数据流频繁项集挖掘是当今数据挖掘和知识学习领域重要的研究课题之一。数据流高速性、连续性、无界性、实时性对挖掘算法在时间和空间方面提出了更高的要求。传统的数据挖掘算法由于其存储结构需要频繁地维护,其挖掘方式的精度和速度较低,空间、时间效率不高。在基于粒计算和ECLAT算法的基础上提出一种挖掘数据流滑动窗口中topK频繁项集算法,采用二进制方式存储项,利用位移运算实现增量更新,实施与运算计算项集支持度,同时利用二分查找法插入到项目序表中,输出前K个频繁项。实验结果表明,该算法在K取值不太高时具有较好的时空高  相似文献   

7.
一种基于变尺度滑动窗口的数据流频繁集挖掘算法   总被引:2,自引:0,他引:2  
基干传统滑动窗口机制的数据流频繁集挖掘算法较多地考虑快速且精确的效果,而较少考虑数据流的时变特性,对传统的滑动窗口机制进行改进.同时考虑数据流的海量特性和时变特性,提出一种基于变尺度滑动窗口机制的数据流频繁集挖掘算法V-Stream.该算法采用事务链表组的概要数据结构.能够根据数据流的数据分布变化自适应调整窗口大小.Eclipse上的仿真实验结果表明,V-Stream相比Manku算法提高了挖掘数据流频繁集的时间与空间效率.  相似文献   

8.
一种新的基于数据流的数据模型   总被引:2,自引:0,他引:2  
随着网络的发展和通讯设备的普及,一种新的数据密集型应用逐渐浮出水面,这主要包括:网络监控、电信数据管理、传感器数据监控等。在这些应用中数据采取的是多维的、连续的、快速的、随时间变化的流式数据的形式。同时,这些应用对数据的访问也是多次和连续的,并要求即时的响应,而传统的数据库技术对数据的假设和相应的查询处理技术已经无法适应这种新的应用的要求。因此,文中根据这种流式数据的特征设计了一种新的基于数据流的数据模型,并就今后如何进行数据流管理系统的研究提出一些新的看法。  相似文献   

9.
针对当前数据流采用的抽样存储方法忽略了对数据流历史数据的分析处理与存储管理的问题,提出一种新的存储数据流的方法。在满足数据精度的情况下,采用加权最小二乘法对缓存数据流进行分段曲线拟合,对拟合结果进行聚类分析。根据聚类分析结果,采用合适的窗口对数据进行分段曲线拟合,利用拟合结果预测数据流的趋势。将预测结果与实际数据比较,根据比较结果采用不同的方法存储。实验结果表明,提出的方法具有良好的性能,能够满足不同的处理需求。  相似文献   

10.
随着网络的发展和通讯设备的普及,一种新的数据密集型应用逐渐浮出水面,这主要包括:网络监控、电信数据管理、传感器数据监控等。在这些应用中数据采取的是多维的、连续的、快速的、随时间变化的流式数据的形式。同时,这些应用对数据的访问也是多次和连续的,并要求即时的响应,而传统的数据库技术对数据的假设和相应的查询处理技术已经无法适应这种新的应用的要求。因此,文中根据这种流式数据的特征设计了一种新的基于数据流的数据模型,并就今后如何进行数据流管理系统的研究提出一些新的看法。  相似文献   

11.
传统的数据挖掘算法在挖掘频繁项集时会产生大量的冗余项集,影响挖掘效率。为此,提出一种基于矩阵的数据流Top-k频繁项集挖掘算法。引入2个0-1矩阵,即事务矩阵和二项集矩阵。采用事务矩阵表示滑动窗口模型中的事务列表,通过计算每行的支持度得到二项集矩阵。利用二项集矩阵得到候选项集,将事务矩阵中对应的行做逻辑与运算,计算出候选项集的支持度,从而得到Top-k频繁项集。把挖掘的结果存入数据字典中,当用户查询时,能够按支持度降序输出Top-k频繁项集。实验结果表明,该算法在挖掘过程中能避免冗余项集的产生,在保证正确率的前提下具有较高的时间效率。  相似文献   

12.
于彦伟  王欢  王沁  赵金东 《软件学报》2015,26(5):1113-1128
提出一种基于密度的簇结构挖掘算法(mining density-based clustering structure over data streams,简称MCluStream),以解决数据流密度聚类中输入参数选择困难和重叠簇识别等问题.首先,设计了一种树拓扑CR-Tree索引结构,将直接核心可达的一对数据点映射成树结构中的父子关系,蕴含了数据点依赖关系的CR-Tree涵盖了一系列subEps参数下的基于密度的簇结构;其次,MCluStream算法采用滑动窗口的方式更新CR-Tree,在线维护当前窗口上的簇结构,实现了对海量数据流的快速演化聚类分析;再次,设计了一种快速从CR-Tree提取簇结构的方法,根据可视化的簇结构,选择合理的聚类结果;最后,在真实和合成海量数据上的实验验证了MCluStream算法具有有效的挖掘效果、较高的聚类效率和较小的空间开销.MCluStream可适用于海量数据流应用中自适应的密度聚类演化 分析.  相似文献   

13.
随着大数据时代的到来,网络上产生了大量非结构化文本数据流,这些文本数据流具有动态、高维、稀疏等特征。针对这些特点,首先将传统的AP算法及流式文本数据特征相结合,然后提出文本数据流聚类算法——OAP-s算法。该算法通过在AP算法上引入衰减因子,对聚类中心结果进行衰减,同时将当前时间窗口的聚类中心带入到下一时间窗口中进行聚类。针对OAP-s算法的不足,又提出了OWAP-s算法。该算法在OAP-s算法模型的基础上定义了加权相似度,并通过引入吸引度因子,使得历史聚类中心更具吸引性,得到更精确的聚类结果。同时,两种算法均采用滑动时间窗口模式,使算法既能体现数据流的时态特征,又能反映数据流的分布特征。实验结果表明,两种算法在聚类精确度、稳定性方面均高于OSKM算法,而且具有较好的伸缩性和可扩展性。  相似文献   

14.
挖掘数据流任意滑动时间窗口内频繁模式   总被引:14,自引:1,他引:14  
李国徽  陈辉 《软件学报》2008,19(10):2585-2596
由于数据流的流动性与连续性,数据流所蕴含的知识会随着时间的推移而发生变化.因此,在绝大多数数据流的应用中,用户往往对新产生的流数据所包含的知识要比对历史流数据所包含的知识感兴趣得多.提出了一种挖掘数据流任意大小滑动时间窗口内频繁模式的方法MSW(mining sliding window).当数据流流过时,该方法使用滑动窗口树SW-tree在单遍扫描流数据的条件下及时捕获数据流上最新的模式信息.同时,该方法还周期性地删除滑动窗口树上过期的及不频繁的模式分支,从而降低滑动窗口树的空间复杂度与维护代价.此外,该方法还应用时间衰减模型逐步降低历史事务模式支持数的权重,并由此来区分最近产生事务与历史事务的模式.大量仿真实验的结果表明,算法MSS具有较高的效率与优良的可扩展性,同时也优于其他同类算法.  相似文献   

15.
挖掘数据流最近时间窗口内频繁模式   总被引:1,自引:0,他引:1  
由于流数据的流动性与连续性,传统的频繁模式挖掘算法不能直接应用于数据流频繁模式挖掘.挖掘数据流上最近的频繁模式算法使用模式树RFP-tree增量维护数据流上最近的频繁模式,且仅需单次扫描流数据;另外,保守计算策略保证模式挖掘的正确性.仿真试验结果显示,该算法的效率优于其它同类算法.  相似文献   

16.
基于滑动窗口的进化数据流聚类   总被引:24,自引:0,他引:24  
常建龙  曹锋  周傲英 《软件学报》2007,18(4):905-918
提出了纳伪(false positive)和拒真(false negative)两种聚类特征指数直方图分别来支持纳伪误差和拒真误差窗口的聚类分析;然后,提出一种基于滑动窗口的数据流聚类方法.该方法在占用窗口大小的次线性内存空间前提下,及时保存最近数据记录的分布状况,从而实现对滑动窗口内的数据进行聚类.此外,它还可被扩展用于N-n窗口(滑动窗口的扩展模型)的数据聚类.实验采用KDD-CUP'99和KDD-CUP'98真实数据集以及变换高斯分布的人工数据集构造进化数据流.理论分析和  相似文献   

17.
时态数据的趋势序列分析及其子序列匹配算法研究   总被引:1,自引:0,他引:1  
针对时态数据挖掘中传统趋势序列分析的缺点,提出了数字趋势序列、趋势序列展开等概念.根据数字趋势序列的特点,使用片段斜率所对应的弧度值来度量片段的趋势.针对数字趋势序列的子序列匹配问题,设计了"DTW双约束快速搜索算法".算法分为3个部分:DTW顺序搜索、双约束机制、冗余消除机制,其中DTW顺序搜索构成了算法的基本框架,双约束机制加快了DTW距离的计算过程,冗余消除机制消除了最终结果集中的冗余.  相似文献   

18.
进化数据流中基于密度的聚类算法   总被引:1,自引:1,他引:0  
分析当前数据流聚类算法的优点及不足,提出一种新的进化数据流中基于密度的聚类算法——Sdstream算法,该算法能够分析并处理大规模进化数据流,利用真实数据集和仿真数据集对其进行性能测试,实验结果表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较高的聚类效果。  相似文献   

19.
挖掘数据流滑动时间窗口内Top-K频繁模式   总被引:1,自引:0,他引:1  
由于数据流滑动时间窗口中流数据包含模式的支持度是动态变化的,很难给出一个合适的支持度门限来挖掘数据流滑动时间窗口内的频繁模式.在研究数据流滑动时间窗口内流数据变化特点的基础上,论文提出了一种挖掘数据流滑动时间窗口内Top-k频繁模式的方法,该方法能够在保证模式挖掘误差基础上快速删除窗口内不频繁模式信息,保留重要的模式信息,并能按照支持度降序输出Top-k频繁模式.仿真实验结果表明,该算法具有较好的效率和正确性,并优于其它同类算法.  相似文献   

20.
数据流中异常模式的提取与趋势监测   总被引:11,自引:0,他引:11  
研究的重点是数据流环境中异常模式的提取与趋势监测.主要贡献包括:①提出了一个进行异常模式发现的度量框架——强度比率,为异常模式挖掘提供了度量标准;②在基于异常模式求取的基础上,提出了利用回归分析方法——最小二乘法进行异常模式趋势监测.实验结果表明,提出的异常模式度量和求取算法是合理的,提出的趋势监测方法是有效的、可行的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号