首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 142 毫秒
1.
目前数据流分类算法大多是基于类分布这一理想状态,然而在真实数据流环境中数据分布往往是不均衡的,并且数据流中往往伴随着概念漂移。针对数据流中的不均衡问题和概念漂移问题,提出了一种新的基于集成学习的不均衡数据流分类算法。首先为了解决数据流的不均衡问题,在训练模型前加入混合采样方法平衡数据集,然后采用基分类器加权和淘汰策略处理概念漂移问题,从而提高分类器的分类性能。最后与经典数据流分类算法在人工数据集和真实数据集上进行对比实验,实验结果表明,本文提出的算法在含有概念漂移和不均衡的数据流环境中,其整体分类性能优于其他算法的。  相似文献   

2.
实时数据流中标记样本所占比例较小,并且存在大量的噪声数据和冗余数据,导致数据流的实时分类准确率较低。针对这种情况,提出基于拉普拉斯回归主动学习的大数据流分类算法。为分类器设计相对支持度差异函数作为分类的决策方法,通过阈值判断当前数据流的标记样本量。设计基于约束规则的半监督主动学习算法,从无标记样本集选择信息量最丰富的样本。采用拉普拉斯正则最小二乘回归模型作为半监督学习的回归模型,迭代地扩展数据流的标记样本量。仿真结果表明,该算法有效地提高了数据流的分类准确率,并且满足实时性的需求。  相似文献   

3.
在数据流管理系统(data stream management system,DSMS)中嵌入数据挖掘算法对数据库研究者是一项新的挑战,而在数据流管理系统中嵌入快速决策树(very fast decision tree,VFDT),尚未见报道。利用DSMS原有的机制在Esper中实现了VFDT算法。其主要思想是将VFDT算法转换为Esper的数据查询语言(Esper query language,EQL)。给出了在DSMS中实现VFDT算法的两种方法:普通方法。直接将VFDT算法转化为EQL语言并在DSMS中实现(记作DVFDT);改进方法。通过Esper中固有的批量处理模式来实现(记作optimal-DVFDT)。通过一系列实验比较分析了两种方法对海量数据流分类的准确率和性能;将提出的两种方法与用Java实现的VFDT算法(记作JVFDT)在分类精度和时间上进行比较。结果表明,在DSMS中实现的VFDT算法具有较好的性能,并且该算法对大规模数据流数据的子集同样具有较高的性能。  相似文献   

4.
许多现实场景要求准确的脸部性别识别。深度卷积神经网络在正常状况下取得好的准确率,适用于大规模分类任务,但存在模型可解释性差、易丢失细节信息等问题,并且光照、姿势、表情等因素带来的不确定性会导致分类准确率较低。提出一种基于阴影集的二级分类模型。采用深度卷积神经网络对大规模图像集进行一阶段分类;结合阴影集理论,将图像分类结果划分为接收域、拒绝域和不确定域,得到不确定的脸部图像集,用传统方法进行二阶段分类。在LFW数据集和Adience数据集下,与现有先进算法相比,所提方法能有效地提高总体分类的准确率。  相似文献   

5.
互联网环境日新月异,使得网络数据流中存在概念漂移,对数据流的分类也由传统的静态分类变为动态分类,而如何对概念漂移进行检测是动态分类的关键。本文提出一种基于概念漂移检测的网络数据流自适应分类算法,通过比较滑动窗口中数据与历史数据的分布差异来检测概念漂移,然后将窗口中数据过采样来减少样本间的不均衡性,最后将处理后的数据集输入到OS-ELM分类器中进行在线学习,从而更新分类器使其应对数据流中的概念漂移。本文在MOA实验平台中使用合成数据集和真实数据集对提出的算法进行验证,结果表明,该算法较集成学习算法在分类准确率和稳定性上有一定的提升,并且随着数据流量的增加,时间性能上的优势开始体现,适合复杂多变的网络环境。  相似文献   

6.
动态非平衡数据分类是在线学习和类不平衡学习领域重要的研究问题,用于处理类分布非常倾斜的数据流。这类问题在实际场景中普遍存在,如实时控制监控系统的故障诊断和计算机网络中的入侵检测等。由于动态数据流中存在概念漂移现象和不平衡问题,因此数据流分类算法既要处理概念漂移,又要解决类不平衡问题。针对以上问题,提出了在检测概念漂移的同时对非平衡数据进行处理的一种方法。该方法采用Kappa系数检测概念漂移,进而检测平衡率,利用非平衡数据分类方法更新分类器。实验结果表明,在不同的评价指标上,该算法对非平衡数据流具有较好的分类性能。  相似文献   

7.
随着移动互联网的快速发展以及信息技术的普遍应用,在许多应用中都产生了海量、不确定性数据,包括金融、军事、位置服务、医疗以及气象等。然而,传统的确定性数据管理方法很难管理不确定数据,亟需开发新型数据管理方法。可能世界模型被广泛用于为不确定数据建模,通过该模型可以衍生出诸多确定性的可能世界实例。不确定性数据流是指高速到达的海量不确定元组序列,因而不确定数据流管理比不确定性静态数据管理更具挑战性。面向于不确定数据流的ER-Topk查询是一个典型问题,但是处理复杂度高。提出一种近似算法来处理该查询,具有较小的空间复杂度;同时,还通过搜索策略优化来进一步提升查询处理效率。实验结果验证了所提方法的有效性和高效性。  相似文献   

8.
一种存在级不确定数据流聚类算法   总被引:1,自引:0,他引:1  
针对不确定数据流聚类算法——EMicro在聚类结果的精确性和聚类中数据的概率相似度方面的不足,提出一种新基于存在级的不确定数据流算法——UDs Stream。该算法通过设置概率阈值,将不确定性高的点和不确定性低的点分开处理,提高聚类结果的准确性和聚类中数据概率相似度。同时引入窗口和密度的方法,设置动态密度阈值,能够动态掌握数据流的分布特征,使聚类过程有更好的灵活性。实验结果证明,与EMicro相比,UDs Stream算法聚类效果更好。  相似文献   

9.
随着计算机技术及感知技术的发展及应用,各个领域普遍出现不确定性数据流形态的新型数据,吸引了众多研究者的关注.现有的数据流聚类技术普遍忽略不确定性特征,常导致聚类结果的不合理甚至不可用.为数不多的针对不确定性特征的聚类方法片面考察不确定性,且大多基于K-Means算法,具有先天缺陷.针对这一问题展开研究,提出了不确定度模型下数据流自适应网格密度聚类算法(adaptive density-based clustering algorithm over uncertain data stream,ADC-UStream).对于不确定性特征,该算法在存在级和属性级不确定性统一策略下,构建熵不确定度模型进行不确定性度量,综合考察不确定性.采用网格-密度的聚类算法,基于衰减窗口模型设计时态和空间的自适应密度阈值,以适应不确定性数据流的时态性和非均匀分布特征.实验结果表明,不确定模型下的数据流网格密度自适应聚类算法ADC-UStream在聚类结果质量和聚类效率方面都具有较好的性能.  相似文献   

10.
为了有效解决传统的数据分类算法不能很好的适应数据流的数据无限性和概念漂移性带来的问题,提出了一种实时的数据流的挖掘算法.贝叶斯数据流分类算法充分考虑了离散属性和连续属性的不同处理,对时间窗口内的数据进行压缩,然后根据各个时间窗口的权重,重组了压缩后的数据并在重组后的压缩数据上学习和生成了单个贝叶斯分类器.实验结果表明,该算法在分类性能、分类准确率、分类速度上优于同类算法.  相似文献   

11.
Recent research shows that rule based models perform well while classifying large data sets such as data streams with concept drifts. A genetic algorithm is a strong rule based classification algorithm which is used only for mining static small data sets. If the genetic algorithm can be made scalable and adaptable by reducing its I/O intensity, it will become an efficient and effective tool for mining large data sets like data streams. In this paper a scalable and adaptable online genetic algorithm is proposed to mine classification rules for the data streams with concept drifts. Since the data streams are generated continuously in a rapid rate, the proposed method does not use a fixed static data set for fitness calculation. Instead, it extracts a small snapshot of the training example from the current part of data stream whenever data is required for the fitness calculation. The proposed method also builds rules for all the classes separately in a parallel independent iterative manner. This makes the proposed method scalable to the data streams and also adaptable to the concept drifts that occur in the data stream in a fast and more natural way without storing the whole stream or a part of the stream in a compressed form as done by the other rule based algorithms. The results of the proposed method are comparable with the other standard methods which are used for mining the data streams.  相似文献   

12.
Most existing works on data stream classification assume the streaming data is precise and definite. Such assumption, however, does not always hold in practice, since data uncertainty is ubiquitous in data stream applications due to imprecise measurement, missing values, privacy protection, etc. The goal of this paper is to learn accurate decision tree models from uncertain data streams for classification analysis. On the basis of very fast decision tree (VFDT) algorithms, we proposed an algorithm for constructing an uncertain VFDT tree with classifiers at tree leaves (uVFDTc). The uVFDTc algorithm can exploit uncertain information effectively and efficiently in both the learning and the classification phases. In the learning phase, it uses Hoeffding bound theory to learn from uncertain data streams and yield fast and reasonable decision trees. In the classification phase, at tree leaves it uses uncertain naive Bayes (UNB) classifiers to improve the classification performance. Experimental results on both synthetic and real-life datasets demonstrate the strong ability of uVFDTc to classify uncertain data streams. The use of UNB at tree leaves has improved the performance of uVFDTc, especially the any-time property, the benefit of exploiting uncertain information, and the robustness against uncertainty.  相似文献   

13.
由于数据的动态性及不确定性等特征,使得不确定数据流上Skyline查询研究面临挑战.不确定对象一般采用多元概率密度函数(PDF)表示,现有的不确定数据流Skyline查询方法均采用离散型随机变量建模.然而不确定数据流中的对象可能是连续变化的,离散模型对连续性随机变量难以适用.针对连续PDF建模的不确定数据流Skyline查询进行了研究,提出了基于高斯模型的不确定数据流Skyline查询方法(SGMU),该方法包含2个过程:1)动态高斯建模算法(DGM):对滑动窗口采样并建立高斯模型,将原始的数据流转化为不确定对象PDF的参数流;2)提出了基于高斯树的查询算法(GTS)以建立空间索引结构和执行Skyline查询.实验结果表明,SGMU算法不仅能够对连续型不确定对象进行有效建模以辅助Skyline查询,而且能够有效地减少查询对象个数,提高Skyline查询效率.  相似文献   

14.
In this paper, the existing algorithms for modeling uncertain data streams based on radial basis function neural networks have problems of low accuracy, weak stability and slow speed. A new clustering method for uncertain data streams is proposed. Radial basis function neural network of the algorithm. The algorithm firstly models the uncertain data stream, then combines the fuzzy theory and the neural network principle to obtain the radial basis function neural network, and then obtains the radial basis function neural network through the clustering algorithm of the regular tetrahedral uncertain vector. The central weight and width weights ultimately result in hidden layer output and output layer output results. The experimental results show that the proposed algorithm is an effective algorithm for modeling uncertain data streams using clustering radial basis function neural networks. It has higher precision, stability and speed than similar algorithms.  相似文献   

15.
面向高速数据流的集成分类器算法   总被引:1,自引:1,他引:0  
李南  郭躬德 《计算机应用》2012,32(3):629-633
数据流挖掘要求算法在占用少量内存空间的前提下快速地处理数据并且自适应概念漂移,据此提出一种面向高速数据流的集成分类器算法。该算法将原始数据流沿着时间轴划分为若干数据块后,在各个数据块上计算所有类别的中心点和对应的子空间;此后将各个数据块上每个类别的中心点和对应的子空间集成作为分类模型,并利用统计理论的相关知识检测概念漂移,动态地调整模型。实验结果表明,该方法能够在自适应数据流概念漂移的前提下对数据流进行快速的分类,并得到较好的分类效果。  相似文献   

16.
不确定数据流上的Skyline查询技术逐步引起研究者的关注,传统的集中式流处理算法难以满足海量数据的查询需求,并且云计算所提供的海量计算资源和有效的存储管理模式,为研究并行Skyline查询技术提供了充足的条件。基于上述事实,提出了一种不确定数据流上的并行Skyline查询算法(parallel Skyline over uncertain data streams,PSUDS)。该算法通过交叉划分滑动窗口的方式,将集中式流查询转化为并行处理,以并行执行的方式来解决集中式算法处理性能不足的问题。大量实验结果表明,该算法具有较好的并行可扩展性。  相似文献   

17.
社交网络平台产生海量的短文本数据流,具有快速、海量、概念漂移、文本长度短小、类标签大量缺失等特点.为此,文中提出基于向量表示和标签传播的半监督短文本数据流分类算法,可对仅含少量有标记数据的数据集进行有效分类.同时,为了适应概念漂移,提出基于聚类簇的概念漂移检测算法.在实际短文本数据流上的实验表明,相比半监督分类算法和半监督数据流分类算法,文中算法不仅提高分类精度和宏平均,还能快速适应数据流中的概念漂移.  相似文献   

18.
杨永滔  王意洁 《软件学报》2012,23(3):550-564
研究概率数据流上的q-skyline计算问题.与只支持滑动窗口数据流模型的已有方法相比,所提出的方法能够支持更为通用的n-of-N数据流模型.采用将q-skyline查询转换为区间树上刺入查询的方法支持n-of-N数据流模型.提出PnNM算法维护支持n-of-N数据流模型所需的相关数据结构,高效处理了不确定对象候选集合更新和区间更新等维护工作;提出PnNCont算法实现连续查询处理.理论分析和实验结果表明,算法能够有效地支持概率数据流n-of-N模型上的q-skyline查询处理.  相似文献   

19.
数据流分类是数据挖掘中的重要问题,各种针对数据流分类的算法的提出,丰富了数据流挖掘的知识。而蚁群算法是模仿真实蚂蚁觅食行为而提出的一种具有高度创新性的启发元算法,随着其算法设计的不断改进,蚁群优化已成为组合优化领域最具潜力的算法之一。但是,很少有文章将两者联系在一起。本文提出了一种针对数据流分类的蚁群算法,很好地解决了数据流挖掘中的不确定性问题,给出了算法框架,并实现了分类生成、更新、合并和删除算法。在公共数据集上的验证证明算法具有较强的鲁棒性。  相似文献   

20.
动态数据流具有数据量大、变化快、随机存取代价高、详细数据难以存储等特点,挖掘动态数据流对计算能力与存储能力要求非常高。针对动态数据流的以上特点,设计了一种基于自助抽样的动态数据流贝叶斯分类算法,算法运用滑动窗口模型对动态数据流进行处理分析。该模型以每个窗口的数据为基本单位,对窗口内的数据进行处理分析;算法采用自助抽样技术对待分类数据中的属性进行裁剪和优化,解决了数据属性间的多重线性相关问题;算法结合贝叶斯算法的特点,采用动态增量存储树来解决动态样本数据流的存储问题,实现了无限动态数据流无信息失真的静态有限存储,解决了动态数据流挖掘最大的难题——数据存储;对优化的待分类数据使用all-贝叶斯分类器和k-贝叶斯分类器进行分类,结合数据流的特性对两个分类器进行实时更新。该算法有效克服了贝叶斯分类属性独立性的约束和传统贝叶斯只对静态数据分类的缺点,克服了动态数据流最大的难题——数据存储问题。通过实验测试证明,基于自助抽样的贝叶斯分类具有很高的时效性和精确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号