首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
概念格是一种数据分析和规则获取的有效工具,近年来概念格的应用和研究已逐渐成为数据分析领域的一个重要研究方向.当前随着信息技术的发展,流数据成为了大数据的重要组成部分,流数据知识挖掘中普遍存在的概念漂移已经成为近年来机器学习领域的热点问题.动态概念格的构造是概念格理论研究的重要研究任务,但是在流数据环境中进行概念格的概念...  相似文献   

2.
张杰  赵峰 《控制与决策》2013,28(1):29-35
鉴于流数据具有实时、连续、有序和无限等特点,使用近似方法便可检测连续分时段的流数据序列,基于此,运用目标分布数据,结合相似分布理论,提出了利用 Tr-OEM 算法对流数据中的概念漂移现象进行检测.该算法能够动态地判断流数据概念漂移的发生,自适应地优化概念漂移的检测值,适用于不同类型的流数据.通过分析和实验仿真可以表明,该算法在处理流数据概念漂移时具有较好的适应性.  相似文献   

3.
互联网环境日新月异,使得网络数据流中存在概念漂移,对数据流的分类也由传统的静态分类变为动态分类,而如何对概念漂移进行检测是动态分类的关键.本文提出一种基于概念漂移检测的网络数据流自适应分类算法,通过比较滑动窗口中数据与历史数据的分布差异来检测概念漂移,然后将窗口中数据过采样来减少样本间的不均衡性,最后将处理后的数据集输...  相似文献   

4.
一种基于双层窗口的概念漂移数据流分类算法   总被引:1,自引:0,他引:1  
数据流中概念漂移问题的研究已成为近年来流数据挖掘领域的研究热点之一. 已有的研究工作多依据单窗口中错误率的变化来检测概念漂移,难以适应不同类型的漂移. 为此, 本文提出一种新的基于双层窗口机制的数据流分类算法(Double-windows-based classification algorithm for concept drifting data streams, DWCDS),该算法采用随机决策树模型构建集成分类器, 利用双层窗口机制周期性地检测滑动窗口中流数据分布的变化,并动态地更新模型以适应概念漂移. 分析与实验结果表明: 该算法可以快速有效地跟踪检测含噪数据流中的概念漂移,且抗噪性能与分类精度显著提高.  相似文献   

5.
《计算机科学与探索》2016,(12):1683-1692
随着大数据应用研究的不断深入和分布式机器学习中流计算框架的涌现,针对数据流中概念漂移问题的研究是面向大数据挖掘领域的研究热点之一。现有的针对概念漂移的研究成果主要还是依赖于数据结构和算法优化,通过计算资源有限的独立计算机完成概念漂移的检测。为此,提出一种面向大数据的基于Storm的抵抗概念漂移的分类挖掘算法S-CVFDT(Storm-concept very fast decision tree)及系统。该系统采用并行化窗口和S-CVFDT算法,利用并行化窗口机制检测数据流中的突变型概念漂移,从而自适应地改变并行窗口大小,并通过S-CVFDT算法不断更新渐进性概念漂移时的模型。分析与实验结果表明,该算法可以快速有效地检测到突变型概念漂移,降低系统因为突变型概念漂移造成的资源浪费,且模型建立效率、分类精度得到提高。  相似文献   

6.
流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境因素朝不同方向发展往往会导致流数据中概念漂移类别的多样性,这给流数据挖掘及在线学习带来了新的挑战.针对这个问题,提出一种基于时序窗口的概念漂移类别检测(concept drift class detection based on time window, CD-TW)方法.该方法借助栈和队列对流数据进行存取,借助窗口机制对流数据进行分块学习.首先创建2个分别加载历史数据和当前数据的基础节点时序窗口,通过比较二者所包含数据的分布变化情况来检测概念漂移节点.然后创建加载漂移节点后部分数据的跨度时序窗口,通过分析该窗口中数据分布的稳定性检测漂移跨度,进而判断概念漂移类别.实验结果表明该方法不仅能够精确定位概念漂移节点,同时在漂移类别判断方面也表现出良好性能.  相似文献   

7.
为有效解决概念漂移数据流分类问题,提出一种基于混合集成学习的概念漂移数据流分类方法。考虑数据分布特性与概念漂移速率这两个因素,将概念漂移的成因考虑到模型的构建中。采用混合集成学习框架,根据贝叶斯分类错误率来检测概念漂移,通过动态调整滑动窗口,实现不同类型概念漂移的自动识别。实验结果表明,对于不同类型概念漂移数据流的识别问题,该算法在抗噪和漂移检测方面均表现出良好的性能。  相似文献   

8.
针对现有漂移检测方法无法平衡检测延迟、误报与漏报以及时空效率等问题,提出一个新的阶段转换阈值参数,在概念漂移检测中引入包含“稳定阶段-警告阶段-漂移阶段”的分段加权机制,对实例分阶段地赋予权重,并将该机制应用在双层滑动窗口中;然后基于Hoeffding不等式提出一种分段加权的概念漂移检测方法(MSDDM)。在人工数据集上,相较于FHDDM、HDDM等漂移检测方法,MSDDM能够更快地检测出突变与渐变概念漂移,同时又能保持较低的误检率与漏检率;在真实数据集上,MSDDM相较于其他方法在大部分情况下都具有最高的分类准确率。实验结果表明,MSDDM能够以较高的漂移检测性能和较优的时空效率检测出数据流中的概念漂移。  相似文献   

9.
流数据实时近似求和的算法研究   总被引:1,自引:0,他引:1  
对于有关流数据的问题,高效的维护有用信息是关键.本文基于滑动窗口,提出了一种优化的指数级统计直方图和维持结构算法,利用尽可能少的空间.充分考虑了流数据的特性,解决了流数据的实时近似求和问题.  相似文献   

10.
数据的概念漂移特性是广泛存在的。针对渐变概念漂移的分类问题,提出一种自适应近邻投影均值差支持向量机算法。该算法基于结构风险最小化模型,以再生核Hilbert空间中近邻投影均值差为相邻分类器间差异的度量,在全局优化中融入数据自身的分布特征,提高算法的适应性。在模拟数据和真实数据集上的实验结果表明该算法是有效的。  相似文献   

11.
贝叶斯算法因其简单、快速、分类精确度高等优点被广泛应用于垃圾邮件过滤中,然而随着时间的推移,概念漂移现象导致贝叶斯分类器准确率下降。针对此问题,提出了基于用户反馈的客户端贝叶斯动态学习算法,可自动学习新的邮件样本,计算复杂度较低。实验表明该方法能较好地适应概念漂移,满足邮件分类的个性化需求,有很好的实用性。  相似文献   

12.
提出一种新颖的优化方案.方案采用了查询谓词分组和连接分组技术,在众多的查询之间实现了计算共享,较大地节约了系统中存在的算子的数量并提高了处理速度.连接分组首先检查系统当前有无可以利用的中间结果,在这个基础上进行后续连接操作.谓词分组将相同结构的谓词组织在一起,通过引入常数表的这个数据结构将这些查询组织在一起,并将多个过滤操作转化为连接操作,减少了过滤算子的数量.实验结果表明,该方法不仅节约了内存空间,而且还较好地提高了系统的运行效率.  相似文献   

13.
针对文本流分类中的概念漂移问题,以垃圾邮件过滤为应用背景,提出一种能适应概念漂移的垃圾邮件基于案例推理CBR(Case-based Reasoning)过滤算法。算法采用CBR过滤垃圾邮件,研究CBR过程中的案例库管理技术,提出基于惩罚降噪和等价除冗的案例库修正算法,以适应概念漂移问题。在真实数据集上的实验验证了提出的案例修正算法获得的垃圾邮件过滤效率的提高,可以更好地解决垃圾邮件中的概念漂移问题。  相似文献   

14.
张浩  马垣 《微计算机信息》2007,23(36):223-225
现实应用中的许多信息表都随着时间增量地添加信息,提出了一种适用于此特点的增量概念信息推导方法。首先,介绍了形式概念分析的一些基本定义和概念格结构;然后,介绍了一种较概念格结构有很多优点的新的概念结构:相干概念覆盖结构;接着,提出了一个发现相干概念覆盖的增量算法;最后,利用该增量相干概念覆盖算法进行数据挖掘的重要任务之一的分类规则挖掘。  相似文献   

15.
一种基于混合模型的用户兴趣漂移方法   总被引:10,自引:0,他引:10  
针对个性化服务的系统中,如何将新发现的用户兴趣和原有兴趣合并为用户的新兴趣的问题,提出了一种基于概念相关性的用户兴趣漂移方法。采用混合模型,将用户兴趣分为长期兴趣和短期兴趣,对短期兴趣采用滑动窗口处理更新,对长期兴趣采用基于概念相关的渐进遗忘方法,实验表明,该方法不仅能够较为准确地跟踪用户的兴趣变化,而且能够预测用户的兴趣,具有较好的效率。  相似文献   

16.
基于集成的非均衡数据分类主动学习算法   总被引:1,自引:0,他引:1  
当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练.预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL( Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC( Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足.实验表明,提出的算法对于非均衡数据具有更高的分类精度.  相似文献   

17.
语义数据流推理需要对实时高速的RDF数据进行高效推理.针对目前语义数据流处理中推理效率低、查询延迟高等难题,提出一种基于多级索引的前向实时推理机制.基于规则依赖建立推理规则触发顺序;针对开销最大的传递规则进行优化;构建基于传递规则的结果集子图索引;建立基于变量位置的三元组索引消除中间结果;通过查询条件依赖关系进行连接操...  相似文献   

18.
先前事件检测算法需要大量训练样本并且不能动态检测事件.为了从微博短文本中检测金融事件,提出一种从微博中检测公司金融事件的新模型.结合词嵌入与数据流集成分类算法,词嵌入和触发词典用于中文微博文本表示.带有动态时间窗的集成数据流分类算法(DSESVM)用于在线事件分类,大大减少了训练数据并动态检测事件.使用五家上市公司的微...  相似文献   

19.
为解决访问控制中的删除某个对象后重新构造概念格耗时的问题,对概念进行了分类,深入研究了概念格中删除对象后各个概念以及边的变化,分析了概念之间及边之间的联系和规则,在此基础上提出一种概念格的对象渐减更新算法.该算法采用渐进式构造方法,不需要重新构造概念格,而且是在原概念格的基础上采用广度优先遍历的顺序对概念格进行调整,进...  相似文献   

20.
实时数据流中标记样本所占比例较小,并且存在大量的噪声数据和冗余数据,导致数据流的实时分类准确率较低。针对这种情况,提出基于拉普拉斯回归主动学习的大数据流分类算法。为分类器设计相对支持度差异函数作为分类的决策方法,通过阈值判断当前数据流的标记样本量。设计基于约束规则的半监督主动学习算法,从无标记样本集选择信息量最丰富的样本。采用拉普拉斯正则最小二乘回归模型作为半监督学习的回归模型,迭代地扩展数据流的标记样本量。仿真结果表明,该算法有效地提高了数据流的分类准确率,并且满足实时性的需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号