首页 | 本学科首页   官方微博 | 高级检索  
 共查询到10条相似文献,搜索用时 46 毫秒
为了有效解决传统的数据分类算法不能很好的适应数据流的数据无限性和概念漂移性带来的问题,提出了一种实时的数据流的挖掘算法.贝叶斯数据流分类算法充分考虑了离散属性和连续属性的不同处理,对时间窗口内的数据进行压缩,然后根据各个时间窗口的权重,重组了压缩后的数据并在重组后的压缩数据上学习和生成了单个贝叶斯分类器.实验结果表明,该算法在分类性能、分类准确率、分类速度上优于同类算法.  相似文献   

A simple and fast multi-class piecewise linear classifier is proposed and implemented. For a pair of classes, the piecewise linear boundary is a collection of segments of hyperplanes created as perpendicular bisectors of line segments linking centroids of the classes or parts of classes. For a multi-class problem, a binary partition tree is initially created which represents a hierarchical division of given pattern classes into groups, with each non-leaf node corresponding to some group. After that, a piecewise linear boundary is constructed for each non-leaf node of the partition tree as for a two-class problem. The resulting piecewise linear boundary is a set of boundaries corresponding to all non-leaf nodes of the tree. The basic data structures of algorithms of synthesis of a piecewise linear classifier and classification of unknown patterns are described. The proposed classifier is compared with a number of known pattern classifiers by benchmarking with the use of real-world data sets.  相似文献   

针对SVM在对大规模数据分类时求解规模过大的问题,提出了一种缩减数据集以提高训练速度的方法。该算法的第一步利用基于密度的方法大致定位能代表某个局域的质点,然后用SVM训练缩减后的数据得到一组支持向量,第二步的训练数据由支持向量以及其所代表的样本点构成。仿真实验证明该算法在保证分类准确率的情况下能有效地提高分类速度。  相似文献   

支持抽象数据类型属性的索引机制   总被引:3,自引:0,他引:3  

大数据分析——RDBMS 与MapReduce 的竞争与共生   总被引:9,自引:0,他引:9  
在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce的优秀思想改造自身,而以MapReduce为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.  相似文献   

Joseph Fong  Herbert Shiu  Davy Cheung 《Software》2008,38(11):1183-1213
Integrating information from multiple data sources is becoming increasingly important for enterprises that partner with other companies for e‐commerce. However, companies have their internal business applications deployed on diverse platforms and no standard solution for integrating information from these sources exists. To support business intelligence query activities, it is useful to build a data warehouse on top of middleware that aggregates the data obtained from various heterogeneous database systems. Online analytical processing (OLAP) can then be used to provide fast access to materialized views from the data warehouse. Since extensible markup language (XML) documents are a common data representation standard on the Internet and relational tables are commonly used for production data, OLAP must handle both relational and XML data. SQL and XQuery can be used to process the materialized relational and XML data cubes created from the aggregated data. This paper shows how to handle the two kinds of data cubes from a relational–XML data warehouse using extract, transformation and loading. Copyright © 2008 John Wiley & Sons, Ltd.  相似文献   

一种模糊认知图分类器的研究*   总被引:3,自引:1,他引:2  
通过使用模糊认知图来模拟分类过程,构造了一种模糊认知图分类器,提出了它的两种模糊认知图分类模型,并在此基础上给出了使用它进行分类的推理机制。实验证明,该方法具有良好的分类性能。  相似文献   

基于MS Analysis Services的数据挖掘的开发模式   总被引:1,自引:0,他引:1  
利用Microsoft SQL Services2000提供的开发工具和数据挖掘模型,提出了一种完整的数据挖掘系统结构和实现方案,适用于中小型的数据挖掘应用。  相似文献   

大部分数据流分类算法解决了数据流无限长度和概念漂移这两个问题。但是,这些算法需要人工专家将全部实例都标记好作为训练集来训练分类器,这在数据流高速到达并需要快速分类的环境中是不现实的,因为标记实例需要时间和成本。此时,如果采用监督学习的方法来训练分类器,由于标记数据稀少将得到一个弱分类器。提出一种基于主动学习的数据流分类算法,该算法通过选择全部实例中的一小部分来人工标记,其中这小部分实例是分类置信度较低的样本,从而可以极大地减少需要人工标记的实例数量。实验结果表明,该算法可以在数据流存在概念漂移情况下,使用较少的标记数据对数据流训练出分类器,并且分类效果良好。  相似文献   

数据挖掘技术初探   总被引:15,自引:0,他引:15  
数据挖掘技术已成为机器学习、数据库系统、人工智能等领域内热门的研究方向 .本文将讨论数据挖掘的基本概念 ,并在此基础上介绍、分析挖掘关联规则技术、决策树、聚类分析、数据管道等常用数据挖掘技术  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号