首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
Web使用挖掘的数据预处理   总被引:10,自引:0,他引:10  
Web使用挖掘的基本思想是将数据挖掘技术应用于Web使用数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web使用挖掘的数据源最主要的是Web日志,介绍了Web日志的具体内容,针对Web日志的特点,介绍预处理过程中一些特殊情况的处理方法,并在事务的识别阶段给出了一种新的最大向前引用序列挖掘算法——剪枝算法。  相似文献   

2.
基于MapX的空间数据挖掘模型及其应用   总被引:7,自引:0,他引:7  
利用Mapx控件对GIs数据强大的操作与处理功能,将Mapx应用到空间数据挖掘中,构建了基于MapX的空间数据挖掘模型。通过该模型可以方便的对空间数据与非空间数据进行操作处理,以及空间对象之间的拓扑关系与距离信息等进行判定,从而解决了空间数据挖掘中数据整合与数据预处理的问题。概念泛化技术应用于数据预处理中,构建了概念层次树。关联规则算法有效应用于空间数据挖掘中.荻取了有用的知识。  相似文献   

3.
软测量技术的数据预处理方法研究   总被引:2,自引:2,他引:2  
罗健旭  常青 《控制工程》2006,13(4):298-300
针对软测量技术在线实施时的数据预处理问题,提出了基于聚类分析的过失误差侦破方法。该方法不需过程的先验知识和假设,直接面向数据,可十分方便地在线实现。将该方法与滑动平均滤波算法相结合,可以有效处理过程测量数据的过失误差和随机误差,从而提高软仪表估计的精度。在二元精馏塔底产品组分浓度软测量仪表在线进行的仿真中,应用该方法进行数据预处理,使进入软测量模型的过程数据更接近真实值,取得了很好的效果。  相似文献   

4.
针对关联规则挖掘中,基于支持度-置信度框架的关联规则评价标准存在缺乏具体应用领域的分析,挖掘结果很难用于用户决策等问题,提出一种面向领域关联规则评价方法。该方法以领域知识为基准,发现满足技术兴趣度和商业兴趣度的规则,以国家住宅工程中心40个健康住宅试点项目的实际调查数据为例,进行试验和分析。在此基础上,设计并开发了居住健康领域挖掘系统,该系统采用多层次软件架构,包括知识库管理、挖掘数据选择、数据预处理、领域挖掘和结果评价等功能。实验结果和系统应用结果表明了面向领域关联规则评价方法的有效性。  相似文献   

5.
在企业业务运行过程中会产生大量的数据,这些数据以事件日志的方式进行保存.通过对事件日志的采集、处理和分析可以支持对业务过程的挖掘、监控和优化.然而,原始的事件日志因含有各种类型的数据质量问题而无法直接应用于过程挖掘与分析.尽管目前在数据挖掘领域已提出各种数据预处理方法进行数据过滤,但由于业务过程事件日志中事件信息的序列化、动态化以及传递性等特点不同于普通数据,所以无法简单地应用传统的数据预处理方法对事件日志进行预处理.本文对事件日志数据预处理的研究现状进行了系统化的总结,分析了事件日志数据预处理技术面临的挑战,并对未来的研究方向进行了展望.  相似文献   

6.
Web日志挖掘数据预处理过程技术研究   总被引:11,自引:2,他引:11  
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。本文介绍了面向Web日志的数据挖掘预处理的一般过程并给出了用户识别的算法实现。  相似文献   

7.
制导仿真数据仓库研究   总被引:1,自引:1,他引:0  
制导仿真试验和飞行试验都会产生许多数据,数据逐渐累积形成海量数据,针对分析需求对数据进行有效管理,制导仿真数据的管理成为当前国内仿真界面临的难题.鉴于数据仓库管理海量数据、面向分析、支持决策的特性,将数据仓库技术引人到制导仿真数据管理领域,设计出了制导仿真数据仓库的体系架构.针对制导仿真所涉及数据的特点,对制导仿真数据仓库构建过程中先对数据预处理进行研究,提出了制导仿真数据仓库的数据预处理模型,进行仿真证明,模型能有效指导制导仿真数据仓库构的数据预处理工作,可为有关人员快速有效地获取所需数据.  相似文献   

8.
聂琨坤  傅彦 《计算机科学》2004,31(6):167-168
独立分量分析(ICA)是基于数据高阶统计特性的一种线性变换手段。目前,已广泛应用于盲信号分离和图像识别。文章将此技术引入到科学数据挖掘领域,以求解决预处理中高维复杂特征的提取问题。提出了ICA结合主成分分析(PCA)的特征提取步骤,并结合科学数据集量大的特点给出了一种快速收敛算法—FastICA。最后指出ICA特征提取技术可以应用于高维科学数据挖掘,并且较传统的特征提取技术有更高的准确率。  相似文献   

9.
面向数据集成的ETL系统设计与实现   总被引:8,自引:1,他引:8  
ETL是一类用于从一个或多个业务数据库中抽取数据,进行清理转换并加载到数据仓库中的工具。这个数据抽取、转换和加载的过程能够很好地应用于数据集成领域中,实现不同机构之间数据的交换与整合。通过分析数据集成的一些特点,我们提出了一个ETL过程模型,开发了一个面向数据集成的ETL系统DataIntegrator。本文对ETL过程模型、系统总体结构及若干关键技术进行论述。DataIntegrator已经应用于信息系统的建设中,为企业应用集成提供了很好的支持。  相似文献   

10.
对本体(ontology)的研究在计算机领域变得越来越广泛,但手工构造本体是一项繁琐而辛苦的任务,还会导致知识获取瓶颈。本体学习技术是利用本体工程技术和机器学习技术等众多学科技术来实现本体的(半)自动构建。本体的学习可以面向文本、知识库、结构化数据、半结构化数据和无结构数据。本文主要介绍了面向文本的本体学习,并对其中的学习内容、学习方法、学习工具、学习过程和系统评价等关键技术进行了说明,特别介绍了学习方法中的基于统计的方法、词汇句法模式法和形式概念分析法并对其优缺点做了简单的分析。  相似文献   

11.
为了提高嵌入容量和实现解密与提取信息的可分离性,文章将希尔伯特曲线和同态加密的特性运用到密文域可逆信息隐藏中。首先,图像拥有者对原始图像进行预处理,并在加密后构造密文镜像点。然后,信息隐藏者通过同态加法对目标像素点进行秘密信息嵌入。最后,接收方不仅可以提取秘密信息,还可以无损地恢复原始图像。实验证明,文章方案不但能够实现解密与提取信息的可分离性,而且在保证图像质量的前提下,最大嵌入容量可达到69120bits.  相似文献   

12.
在一些支持多小区的OFDM系统中,由于频域上训练序列在子载波的分配会导致时域的前导符号、或者本地生成的已知序列出现周期性,使得时域互相关出现伪峰.这会极大的增加同步误判的概率.分析了伪峰出现的原因,并根据时域相关的原理,提出了一种新的用于无线通信环境下的时间同步算法.先对时域接收信号做预处理,然后对处理过的信号用相关进行时间同步.在不损失同步性能的情况下,极大的缩短了相关长度,降低了同步运算量.仿真结果表明,在高斯和多径衰落信道下,提出的方法均有很好的同步性能.  相似文献   

13.
在收集图书流通数据并对这些数据进行预处理的基础上,利用数据挖掘中的决策树算法,采用SPSS Clementine发现图书借阅率与利用率高的子类,以提高图书采购效率.  相似文献   

14.
一种关联规则挖掘算法及其在医疗信息挖掘中的应用   总被引:1,自引:0,他引:1  
系统对待挖掘数据进行清理、集成、选择、变换等预处理,构建了待挖掘数据库--病人病症数据库,采用关联分析方法进行基于总结规则的数据挖掘,得到了与某一病症相关的各个症状之间的关联关系,以及各个症状与该病症之间的关联关系,并对结果进行了分析.  相似文献   

15.
为了增强特征敏感度,提高人体日常行为识别准确率,提出一种基于自相关函数的人体行为识别方法。首先对预先采集的人体行为数据进行预处理,然后从时域和频域提取特征后计算得到自相关函数特征,同时采取互相关函数的步进式方法在自相关函数上进行降噪操作。分别使用C4.5决策树、K最邻近(KNN)、支持向量机(SVM)、朴素贝叶斯(Naive Bayesian)四种分类器进行分类。实验结果表明,与选取纯粹的时、频域特征集进行识别分类的模型相比,选用了包含自相关函数特征的特征集构造出来的模型对行为的识别准确率有较大提高。  相似文献   

16.
倪彤光  王士同 《控制与决策》2014,29(10):1751-1757
为了解决包含不确定信息的分类学习问题,提出一种新的适用于不确定类标签数据的迁移支持向量机。该方法基于结构风险最小化模型,同时将源领域中所学知识、领域间的共享数据、目标领域中已标定的和不确定的数据纳入学习框架中,进而实现了源领域和目标领域的知识迁移。在多种真实数据集上的实验结果表明了所提出方法的有效性。  相似文献   

17.
收集图书流通数据并对收集数据进行预处理,采用SPSS Clementine软件的两步聚类模型.以班级和科室为单位,对读者的借阅次数进行聚类分析,得出借阅频率信息,把读者分成借阅频率较高、一般和较低3个类型,为图书馆个性化服务提供了基础.实验结果验证明了该方法的有效性和可行性,提出改进图书馆管理工作的建议.  相似文献   

18.
By combining methods from artificial intelligence and signal analysis, we have developed a hybrid system for medical diagnosis. The core of the system is a fuzzy expert system with a dual source knowledge base. Two sets of rules are acquired, automatically from given examples and indirectly formulated by the physician. A fuzzy neural network serves to learn from sample data and allows to extract fuzzy rules for the knowledge base. A complex signal transformation preprocesses the digital data a priori to the symbolic representation. Results demonstrate the high accuracy of the system in the field of diagnosing electroencephalograms where it outperforms the visual diagnosis by a human expert for some phenomena.  相似文献   

19.
针对传统知识库表示的局限性,通过分解和重组领域知识,建立扩展树状结构的知识库,其中叶结点对应具体知识实例,称为原子知识,非叶结点只对应知识概念。同时提出相关的数据清洗算法,根据用户的选择,自动提取原子知识进行分析,消除重复,按照处理权重建立原子知识序列,然后逐一对数据进行清洗。实验表明,该算法能有效优化用户的请求,减少对海量数据的遍历次数,海量数据的清洗效率明显提高。  相似文献   

20.
基于领域本体的数据挖掘服务发现算法   总被引:3,自引:0,他引:3  
随着数据库的广泛应用,数据挖掘技术面临数据的海量化、分布化问题。采用面向服务的架构构造数据挖掘系统是解决该问题的方法之一。提出一种基于领域本体的数据挖掘服务发现算法,通过引入领域知识,定义数据挖掘本体,有效地解决了数据挖掘服务发现问题。首先给出了结合领域知识的数据挖掘服务发现框架,提出了数据挖掘方法本体和质量本体的定义,并给出了根据领域知识及用户需求进行数据挖掘服务发现的算法,为数据挖掘服务选择提供了较为完善的方案。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号