首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 250 毫秒
1.
动态数据流具有数据量大、变化快、随机存取代价高、详细数据难以存储等特点,挖掘动态数据流对计算能力与存储能力要求非常高。针对动态数据流的以上特点,设计了一种基于自助抽样的动态数据流贝叶斯分类算法,算法运用滑动窗口模型对动态数据流进行处理分析。该模型以每个窗口的数据为基本单位,对窗口内的数据进行处理分析;算法采用自助抽样技术对待分类数据中的属性进行裁剪和优化,解决了数据属性间的多重线性相关问题;算法结合贝叶斯算法的特点,采用动态增量存储树来解决动态样本数据流的存储问题,实现了无限动态数据流无信息失真的静态有限存储,解决了动态数据流挖掘最大的难题——数据存储;对优化的待分类数据使用all-贝叶斯分类器和k-贝叶斯分类器进行分类,结合数据流的特性对两个分类器进行实时更新。该算法有效克服了贝叶斯分类属性独立性的约束和传统贝叶斯只对静态数据分类的缺点,克服了动态数据流最大的难题——数据存储问题。通过实验测试证明,基于自助抽样的贝叶斯分类具有很高的时效性和精确性。  相似文献   

2.
为了有效解决传统的数据分类算法不能很好的适应数据流的数据无限性和概念漂移性带来的问题,提出了一种实时的数据流的挖掘算法.贝叶斯数据流分类算法充分考虑了离散属性和连续属性的不同处理,对时间窗口内的数据进行压缩,然后根据各个时间窗口的权重,重组了压缩后的数据并在重组后的压缩数据上学习和生成了单个贝叶斯分类器.实验结果表明,该算法在分类性能、分类准确率、分类速度上优于同类算法.  相似文献   

3.
时兵 《计算机仿真》2020,37(4):330-334
针对传统的复杂网络数据流频繁项集人工智能挖掘方法存在数据挖掘时间较长、准确性较低等问题,提出一种基于时间戳的复杂网络数据流频繁项集人工智能挖掘方法。在训练阶段,利用贝叶斯分类算法找到所有复杂网络数据流频繁项集,并计算不同复杂网络数据流频繁项集的概率估值,在测试阶段,针对不同的测试样本构造不同的分类器,集成分类器,获取分类结果。通过分类结果,构建时间戳的滑动窗口模型,根据滑动窗口的大小对项集进行延迟处理,当项集的类型变化界限超过一定的阈值时,需要重新计算支持度,根据计算结果更新变化界限,完成复杂网络数据流频繁项集人工智能挖掘。实验结果表明,所提方法能够快速、准确地对数据流频繁项集进行人工智能挖掘。  相似文献   

4.
由于在信用卡欺诈分析等领域的广泛应用,学者们开始关注概念漂移数据流分类问题.现有算法通常假设数据一旦分类后类标已知,利用所有待分类实例的真实类别来检测数据流是否发生概念漂移以及调整分类模型.然而,由于标记实例需要耗费大量的时间和精力,该解决方案在实际应用中无法实现.据此,提出一种基于KNNModel和增量贝叶斯的概念漂移检测算法KnnM-IB.新算法在具有KNNModel算法分类被模型簇覆盖的实例分类精度高、速度快优点的同时,利用增量贝叶斯算法对难处理样本进行分类,从而保证了分类效果.算法同时利用可变滑动窗口大小的变化以及主动学习标记的少量样本进行概念漂移检测.当数据流稳定时,半监督学习被用于扩大标记实例的数量以对模型进行更新,因而更符合实际应用的要求.实验结果表明,该方法能够在对数据流进行有效分类的同时检测数据流概念漂移及相应地更新模型.  相似文献   

5.
互联网环境日新月异,使得网络数据流中存在概念漂移,对数据流的分类也由传统的静态分类变为动态分类,而如何对概念漂移进行检测是动态分类的关键。本文提出一种基于概念漂移检测的网络数据流自适应分类算法,通过比较滑动窗口中数据与历史数据的分布差异来检测概念漂移,然后将窗口中数据过采样来减少样本间的不均衡性,最后将处理后的数据集输入到OS-ELM分类器中进行在线学习,从而更新分类器使其应对数据流中的概念漂移。本文在MOA实验平台中使用合成数据集和真实数据集对提出的算法进行验证,结果表明,该算法较集成学习算法在分类准确率和稳定性上有一定的提升,并且随着数据流量的增加,时间性能上的优势开始体现,适合复杂多变的网络环境。  相似文献   

6.
当前已有的数据流分类模型都需要大量已标记样本来进行训练,但在实际应用中,对大量样本标记的成本相对较高。针对此问题,提出了一种基于半监督学习的数据流混合集成分类算法SMEClass,选用混合模式来组织基础分类器,用K个决策树分类器投票表决为未标记数据添加标记,以提高数据类标的置信度,增强集成分类器的准确度,同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示,SMEClass算法与最新基于半监督学习的集成分类算法相比,其准确率有所提高,在运行时间和抗噪能力方面有明显优势。  相似文献   

7.
基于Fisher判别分析的贝叶斯分类器   总被引:1,自引:0,他引:1       下载免费PDF全文
曹玲玲  潘建寿 《计算机工程》2011,37(10):162-164
针对满足“类条件属性相互独立”假定的经典贝叶斯分类器无法有效利用类间信息的缺陷,结合Fisher线性判别分析,给出一种基于Fisher线性判别分析的贝叶斯分类器的改进算法。该算法通过寻找类与类最大分离的投影空间,将原样本向最大分离空间投影,以获得新样本,并采用贝叶斯分类器对新样本进行分类。实验结果表明,在给定的数据集上,该贝叶斯分类器的分类正确率较高,分类性能较好。  相似文献   

8.
基于“3σ”规则的贝叶斯分类器   总被引:1,自引:0,他引:1  
在软测量建模问题中为了提高模型的估计精度,通常需要将原始数据集分类,以构造多个子模型。数据分类中利用朴素贝叶斯分类器简单高效的优点,首先对连续的类变量进行类别范围划分,然后用概率论中的3σ规则对连续的属性变量离散。可以消除训练样本中干扰数据的影响,利用遗传算法从训练样本集中优选样本。对连续变量的离散和样本的优选作为对数据的预处理,预处理后的训练样本构建贝叶斯分类器。通过对UC I数据集和双酚A生产过程在线监测数据集的实验仿真,实验结果表明,遗传算法优选样本集的3σ规则朴素贝叶斯分类方法比其它方法有更高的分类精度。  相似文献   

9.
针对传统时间序列分类方法需要较为繁琐的特征抽取工作以及在只有少量标记数据时分类效果不佳的问题,通过分析BP神经网络和朴素贝叶斯分类器的特点,提出一种基于BP和朴素贝叶斯的时间序列分类模型。利用了BP神经网络非线性映射能力和朴素贝叶斯分类器在少量标记数据下的分类能力,将BP神经网络抽取到的特征输入到朴素贝叶斯分类器中,可以较为有效的解决传统时间序列分类算法的问题。实验结果表明,该模型在标记数据较少的情况下的时间序列分类中具有较高的分类准确度。  相似文献   

10.
数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第k+1块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明:与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。  相似文献   

11.
Three-dimensional (3D) graphic scenes require considerable network bandwidth to be transmitted and computing power to be rendered on a user's terminal. Toward high-quality display in real time, we propose a sender-driven mechanism for streaming 3D scenes in a resource-constrained environment. In doing so, objects are encoded into multiresolutions to provide transmission and rendering scalability, and a weighted distortion metric is developed to measure the quality of a scene rendered with multiresolution objects, modeling objects' unequal importance regarding display. To preserve the manipulation independency of multiple objects in data delivery while provide preferential treatment for different objects as well as different layers of each object, transmission of the objects is performed over multiple streams in a partially sequenced and partially reliable fashion. A rate-distortion optimization framework is developed, which determines an optimal level of reliability for every chunk of data in each stream, taking into account the rendering importance of the object, the distortion-rate performance of the data chunks, and the statistics of the network link. Compared with heuristical methods, simulation results show that the proposed framework maximizes the display quality of the scene while minimizing the amount of data that needs to be processed by the client's rendering engine  相似文献   

12.
Classification is an important data analysis tool that uses a model built from historical data to predict class labels for new observations. More and more applications are featuring data streams, rather than finite stored data sets, which are a challenge for traditional classification algorithms. Concept drifts and skewed distributions, two common properties of data stream applications, make the task of learning in streams difficult. The authors aim to develop a new approach to classify skewed data streams that uses an ensemble of models to match the distribution over under-samples of negatives and repeated samples of positives.  相似文献   

13.
基于主要特征抽取的重现概念漂移处理算法   总被引:1,自引:1,他引:0  
针对重现概念漂移检测中的概念表征和分类器选择问题,提出了一种适用于含重现概念漂移的数据流分类的算法——基于主要特征抽取的概念聚类和预测算法(Conceptual clustering and prediction through main feature extraction, MFCCP)。MFCCP通过计算不同批次样本的主要特征及影响因子的差异度以识别重复出现的概念,为每个概念维持且及时更新一个分类器,并依据Hoeffding不等式选择最合适的分类器对当前样本集实施分类,以 提高对概念漂移的反应能力。在3个数据集上的实验表明:MFCCP在含重现概念漂移的数据集上的分类准确率,对概念漂移的反应能力及对概念漂移检测的准确率均明显优于其他4种 对比算法,且MFCCP也适用于对不含重现概念漂移的数据流进行分类。  相似文献   

14.
利用贝叶斯网络融合空间上下文的高分辨遥感图像分类   总被引:1,自引:0,他引:1  
针对高分辨遥感图像,本文提出了一种基于贝叶斯网络的上下文模型,以及基于该模型的面向对象的遥感图像分类方法.首先,利用支持向量机(SVM)实现分割区域的初始分类,获得各个类别的候选区域.然后,利用提出的上下文模型融合候选区域及其周围区域的上下文信息,通过贝叶斯网络推理,将候选区域分类到各类地物类型中.基于贝叶斯网络的上下...  相似文献   

15.
江晶晶  王志海  原继东 《计算机科学》2017,44(7):167-174, 202
依据从大规模数据中抽取的模式来建立分类模型是模式挖掘的重要研究问题之一。一种可行的方法是根据模式集合建立贝叶斯分类模型。然而,目前基于模式的贝叶斯分类模型大多是针对静态数据集合的,通常不能适应于高速动态变化与无限的数据流环境。对此,提出一种数据流环境下基于模式发现的贝叶斯分类学习模型,其采用半懒惰式学习策略,针对分类实例在不断更新的频繁项集合上建立局部的分类模型;为加快流数据处理的速度,提出了结构更为简单的混合树结构,同时提出了给定项限制的模式抽取机制以减少候选项集的生成;对数据流中模式抽取不完全的情况,使用平滑技术处理未被抽取的项。大量实验分析证明,相较于其他数据流分类器,所提模型具有更高的分类正确率。  相似文献   

16.
为对异构数据库中的大量孤立、没有语义描述的数据进行自动归类及本体建模,实现异构数据库数据的知识获取,提出了一个基于本体与Web服务的异构数据库知识获取框架,给出了通过Web服务包装异构数据库的访问机制,设计出贝叶斯分类器并应用该分类器对获取的异构数据自动映射到相关的本体.该方法能够通过贝叶斯分类器自动对异构数据归类,实现了异构数据库的交互知识获取.  相似文献   

17.
针对目前基于贝叶斯或决策树的入侵检测方法存在检测率低、误检率高的问题,提出了一种基于贝叶斯和决策树的入侵检测方法。该检测方法首先采用基于特征相似度的朴素贝叶斯方法对训练集中的样本进行分类,更新每个样本的类值;然后对训练集中的样本再次使用朴素贝叶斯方法进行分类,对存在误分类样本的类采用决策树的信息增益来确定属性划分子类,再对子类进行分类和划分操作;最后建立贝叶斯和决策树的混合模型进行入侵检测。实验结果表明,与单独使用贝叶斯或者决策树的检测方法相比,该检测方法具有较高的检测率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号