共查询到20条相似文献,搜索用时 125 毫秒
1.
2.
Kohonen自组织特征映射网络SOM因其能够将高维数据映射为二维特征图而广泛应用于数据探索分析活动中。预测模型标记语言标准PMML是一个与平台及系统无关的数据挖掘模型表示语言,但其中并未包含SOM元模型的定义。通过对SOM模型的应用需求分析,提出了基于PMML的SOM元模型定义,可使模型生成与模型存储相分离,使用户在脱离模型生成系统的情况下进行模型的可视化及利用。 相似文献
3.
4.
5.
入侵检测系统作为一种主动的信息安全防御措施,有效地弥补了传统安全防护技术的不足,利用数据挖掘善于从大量数据中提取有用规则的特点,提出了一种改进的FP-Growth关联分析算法的网络入侵检测防御系统模型,该方法可以极大地提高数据挖掘的速度和节省数据挖掘中数据存储的空间。 相似文献
6.
本文在基于数据挖掘的网络入侵检测系统框架基础上设计了一个无导师学习的分析器模型.该模型结合了核k-means聚类、模式挖掘、近似串匹配的方法,训练过程不需要使用带标记的数据,并且不需要保证每个训练数据集中正常数据和异常数据在数量上的比例关系.实验结果表明,该模型具有较高的检测率并降低了误报率. 相似文献
7.
针对目前归纳逻辑程序设计(inductive logic programming,ILP)系统要求训练数据充分且无法利用无标记数据的不足,提出了一种利用无标记数据学习一阶规则的算法——关系tri-training(relational-tri-training,R-tri-training)算法。该算法将基于命题逻辑表示的半监督学习算法tri-training的思想引入到基于一阶逻辑表示的ILP系统,在ILP框架下研究如何利用无标记样例信息辅助分类器训练。R-tri-training算法首先根据标记数据和背景知识初始化三个不同的ILP系统,然后迭代地用无标记样例对三个分类器进行精化,即如果两个分类器对一个无标记样例的标记结果一致,则在一定条件下该样例将被标记给另一个分类器作为新的训练样例。标准数据集上实验结果表明:R-tri-training能有效地利用无标记数据提高学习性能,且R-tri-training算法性能优于GILP(genetic inductive logic programming)、NFOIL、KFOIL和ALEPH。 相似文献
8.
本文介绍了分布式入侵检测系统的重要性和现有分布式入侵检测系统的局限性,提出了一种基于数据融合和数据挖掘的分布式入侵检测系统模型(DIDSFM),叙述了数据融合和数据挖掘应用于分布式入侵系统的意义,并详细说明了系统的体系结构和工作原理。 相似文献
9.
10.
郭浩 《计算机光盘软件与应用》2013,(21):108-108,110
层次分析法构建挖掘模型(ACMC)策略让整个数据挖掘流程更加的直观,它升华了原来的层次分析概念,在复杂的数据环境中,实现了高效率、高质量的数据预测分析,并且从方法论、实践方面提供了根据数据挖掘过程的策略分析,实现了ACMC系统的规范设计。提高了挖掘数据的准确性。下面本文就对ACMC在多维数据挖掘处理中的应用探讨。 相似文献
11.
地理空间数据的应用应用范围迅速扩大,实现空间数据的共享,充分有效利用已有数据,可节约用户成本,栅格数据的共享方式在多媒体领域有较多研究,而矢量数据研究得不多,本文讨论了分布式海量矢量地理空间数据共享的几个问题-海量空间数据的管理,传输,可视化及空间数据共享的安全问题。 相似文献
12.
孙瑜 《计算机测量与控制》2024,32(3):286-292
目前常规的多源异构数据治理方法主要通过对数据属性进行判断,从而实现分区域数据清洗,由于缺乏对非线性数据的分析,导致治理性能不佳;对此,提出基于云数据中心的多源异构数据治理技术;采用关系型数据库中的ETL功能对数据进行清洗,对数据转换模式以及数据清洗规则进行定义;引入互信息系数对数据相关程度进行判定,并进行非线性数据相关性分析;以云数据中心作为载体,对多源异构数据治理体系进行构建;在实验中,对提出的数据治理技术进行了治理性能的检验;最终的实验结果表明,提出的数据治理技术具备较高的查准率,对云数据中心多源异构数据具备较为理想的数据治理效果。 相似文献
13.
为了解决流程型生产车间数据种类多、数据质量参差不齐影响生产管控的问题, 提出了面向多源数据的数据分类处理技术, 采用数据分类与滑动窗口相结合的方式进行数据处理. 首先, 根据生产数据特点建立数据模型, 然后进行数据分类. 主要分为状态数据、开关数据、逻辑数据 3类, 不同类型的数据使用不同处理算法; 同时采用滑动窗口解决不同任务对数据实时性和完整性要求不同的难点. 最后, 该数据分类处理模型在实际生产环境投入使用, 验证了对生产数据处理的准确性和实时性. 结果表明, 将处理后的数据应用于生产管控, 管控误差率降低至不足1%. 相似文献
14.
各企业在进行数据共享之前,首要考虑的是数据模型的数据映射关系,然而数据模型在不断的更替与升级,给数据集成带来了很大困难。文中设计了一种对数据源结构进行统一描述的数据字典元模型,利用数据元来规范数据项,将编辑距离算法思想应用其中,实现数据项与数据元字典中数据元的相似度匹配。应用语义树的表示方法来描述数据元结构,利用语义相似度算法进行数据元间的相似性、一致性检查,寻找数据元间的关联关系,间接地定位数据项间的语义关系,为数据映射奠定良好基础。以中石化标准数据元规范油田企业搜索引擎数据项,确保研究的实用价值。 相似文献
15.
如何从巨量性能数据提取出特征数据是网络测量中的一项非常困难的工作。首先定义了性能数据的特征,按指标类型、获取方式或流动特性将其划分成不同的数据集,并建立了性能数据空间。通过对数据的深入分析,将复杂的性能数据分析过程分为完备化和抽象化两个阶段,提高了数据分析的效率。最后根据性能数据空间和数据集的分析,设计和实施了一个分布式数据分析体系结构。 相似文献
16.
17.
空间数据质量的优劣将直接影响地理信息系统的运行效率、空间分析结果的正确性与合理性。基于遥感技术的大区域空间数据更新与集成,具有多源数据的综合使用、高度综合、繁难的数据获取过程等特点。基于遥感技术的大区域空间数据集成与更新的实用质量控制与评价方法主要有两个方面的内容:一是对数据质量进行总体控制,主要对总体设计方案、数据源以及数据生产、加工处理进行质量控制。总体设计方案的控制评价因用户需求分析及联合设计、数据源、制图综合、数据生产时间、引用标准、数学基础、要素分类编码、数据格式及技术路线与技术性试验等。二是从空间精度、属性精度以及时间精度等三个方面,根据数据生产流程的不同阶段予以详细评价。对中采用的主要基于遥感技术的大区域空间数据集成与更新的数据质量存在的缺陷做出了讨论。 相似文献
18.
侯济恭 《计算机工程与设计》2007,28(18):4494-4497
提出了政府智能的概念,政府智能是将政府拥有的数据转化为知识,帮助政府决策者做出明智决策的工具.从技术层面而言,是数据仓库、知识系统、OLAP和数据挖掘等技术的综合运用.政府智能系统从体系上可划分为4个层面,即数据管理、数据分析、知识发现和知识融合.从功能实现上,通过元数据的统一管理,也可分为4个层次即数据获取、数据存储、数据展现和数据源.可以运用J2EE的MVC等技术建立粗粒度的数据仓库和数据集市、知识系统库、商业智能算法集,构建出政府智能平台. 相似文献
19.
Lean Yu Shouyang Wang Lai K.K. 《Knowledge and Data Engineering, IEEE Transactions on》2006,18(2):217-230
Data preparation is an important and critical step in neural network modeling for complex data analysis and it has a huge impact on the success of a wide variety of complex data analysis tasks, such as data mining and knowledge discovery. Although data preparation in neural network data analysis is important, some existing literature about the neural network data preparation are scattered, and there is no systematic study about data preparation for neural network data analysis. In this study, we first propose an integrated data preparation scheme as a systematic study for neural network data analysis. In the integrated scheme, a survey of data preparation, focusing on problems with the data and corresponding processing techniques, is then provided. Meantime, some intelligent data preparation solution to some important issues and dilemmas with the integrated scheme are discussed in detail. Subsequently, a cost-benefit analysis framework for this integrated scheme is presented to analyze the effect of data preparation on complex data analysis. Finally, a typical example of complex data analysis from the financial domain is provided in order to show the application of data preparation techniques and to demonstrate the impact of data preparation on complex data analysis. 相似文献
20.
数据仓库(Data Warehouse,DW)是支持决策管理过程的、面向主题的、集成的、随时间而变的、持久的数据集合,它集成了源数据库(Database,DB)和其他平面文件系统的相关数据,以支持决策管理活动。数据仓库结构是一个多维模型,主要分星形、雪花星和星座形三种。有别于传统关系型数据库的设计,数据库仓库的设计往往以数据作为驱动,其设计的好坏,直接影响了数据仓库系统的建设与应用。文中提出了一种评估数据仓库设计质量的定量分析方法,主要是量化了和数据仓库有血缘关系的数据源的相关质量指标,就是通过分析所选取的表和属性两方面的数据质量(Data Quality,DQ)指标,最终联合这些指标以计算数据仓库设计质量的评估值。其中,分析数据源相关质量指标的过程,也可以支持数据库仓库的设计。 相似文献