首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Recently, the class imbalance problem has attracted much attention from researchers in the field of data mining. When learning from imbalanced data in which most examples are labeled as one class and only few belong to another class, traditional data mining approaches do not have a good ability to predict the crucial minority instances. Unfortunately, many real world data sets like health examination, inspection, credit fraud detection, spam identification and text mining all are faced with this situation. In this study, we present a novel model called the “Information Granulation Based Data Mining Approach” to tackle this problem. The proposed methodology, which imitates the human ability to process information, acquires knowledge from Information Granules rather then from numerical data. This method also introduces a Latent Semantic Indexing based feature extraction tool by using Singular Value Decomposition, to dramatically reduce the data dimensions. In addition, several data sets from the UCI Machine Learning Repository are employed to demonstrate the effectiveness of our method. Experimental results show that our method can significantly increase the ability of classifying imbalanced data.  相似文献   

2.
重点综述了基于局部信息的全局数据挖掘方法。根据数据挖掘的过程,将该问题的研究划分成三个阶段,即利用粒度数据表示进行挖掘、利用局部信息改善全局挖掘的效率和利用局部模式结果获得全局数据理解,并对每个阶段进行了分类论述。最后总结了全文并指明了未来的研究方向。  相似文献   

3.
Web mining involves the application of data mining techniques to large amounts of web-related data in order to improve web services. Web traversal pattern mining involves discovering users’ access patterns from web server access logs. This information can provide navigation suggestions for web users indicating appropriate actions that can be taken. However, web logs keep growing continuously, and some web logs may become out of date over time. The users’ behaviors may change as web logs are updated, or when the web site structure is changed. Additionally, it can be difficult to determine a perfect minimum support threshold during the data mining process to find interesting rules. Accordingly, we must constantly adjust the minimum support threshold until satisfactory data mining results can be found.The essence of incremental data mining and interactive data mining is the ability to use previous mining results in order to reduce unnecessary processes when web logs or web site structures are updated, or when the minimum support is changed. In this paper, we propose efficient incremental and interactive data mining algorithms to discover web traversal patterns that match users’ requirements. The experimental results show that our algorithms are more efficient than other comparable approaches.  相似文献   

4.
将不完全数据分为了两类:属性值残缺和属性值隐含.对基于这两类不完全数据的数据挖掘方法分别进行了探讨,给出了相应的处理方法,并对这些方法及其应用进行了讨论.属性值残缺的处理主要采用一系列"补漏"的方法,使数据成为完全数据集;属性值隐含的处理则通过EM算法来优化模型的参数,弥补数据的不完全性.  相似文献   

5.
马兰  王京杰  陈焕 《计算机应用》2019,39(2):488-493
针对广域信息管理系统(SWIM)服务共享中的数据安全问题,分析了SWIM业务流程中的安全隐患,提出了一种基于潜在狄利克雷分配(LDA)主题模型和内容挖掘的恶意数据的过滤方法。首先对SWIM四种业务数据进行大数据分析,然后通过LDA模型对业务数据进行特征抽取完成内容挖掘,最后利用KMP匹配算法在主串中查找模式串,从而检测出含有恶意关键字的SWIM业务数据。在Linux内核中对该检测方法进行测试,实验结果表明该方法能够有效地对SWIM业务数据进行内容挖掘,与潜在语义分析(LSA)和基于概率统计的潜在语义分析(pLSA)的方法相比也具有更好的检测性能。  相似文献   

6.
针对在生物信息网络中对复杂和大规模的数据集进行挖掘时所出现的算法挖掘精度低、运行速度慢、内存占用大等问题,提出一种基于关联规则映射的生物信息网络多维数据挖掘算法.该算法结合网络数据集之间的关联映射关系,从而确定网络数据集的关联规则,并引入挖掘因子和相对误差来提高算法的挖掘精度;根据多维子空间中数据集之间的关联程度进行子空间区分以及子空间内数据集区分,从而实现对不同数据集的有效挖掘.在实验中,对不同数据集数量下的算法内存占用情况、算法挖掘精度、算法运行时间进行仿真,从实验结果可以看出基于关联规则映射的挖掘算法可以有效地提高挖掘精度,在减少内存占用和提升计算速度上也具有一定的优势.  相似文献   

7.
潘定  沈钧毅 《控制与决策》2007,22(3):278-283
基于一阶线性时态逻辑。形式化定义时态数据挖掘中的主要概念。利用线性状态结构对每个时间点上的一阶语言符号进行赋值。并度量公式的真值范围.按照挖掘段概念.开发持续挖掘过程模型,用于归纳局部一阶规则与推导高阶规则.基于信息扩散原理.提出一阶规则的度量值估计方法和规则泛化算法.最后通过算例说明了扩散估计和算法的有效性.  相似文献   

8.
针对电能设备异常并行诊断数据量大、种类繁多等问题,以朴素贝叶斯和Spark为基础,提出一种基于数据挖掘的电能设备异常并行诊断模型.在该模型中,首先对电能计量装置异常数据进行计算,然后采用HDFS+Hive+Spark SQL的方案实现对异常信息的多维分析;应用Spark并行框架搭建朴素贝叶斯并行诊断模型.最后,通过搭建...  相似文献   

9.
基于IDL的考古地层空间数据挖掘研究   总被引:3,自引:0,他引:3  
使用IDL语言开发了空间数据挖掘工具,提取了地层空间特征的统计信息和隐含规律,对地层空间关系的认知结果予以量化。最后,通过空间数据挖掘并结合空间分析的方法探讨和反演了地层在时间尺度上的沉积变化规律。  相似文献   

10.
给出了一种从采样集合中自动建立认知推理网络的方法,试图解决数据挖掘问题中的知识获取和知识表达的瓶颈。给出了两个算法用于自动处理学习和建立基于认知结构的不确定推理网络。利用一些实验数据进行了计算机实验,并对实验结果进行了分析。然后将该方法与相关工作进行了比较;最后对所做的工作进行了总结并指出了进一步的研究方向。  相似文献   

11.
基于数据挖掘的人口数据预测模型综述   总被引:3,自引:1,他引:2       下载免费PDF全文
论文调查了国内外基于数据挖掘技术的人口数据预测模型。根据预测目的不同对这些模型进行了分类比较,在此基础上综合各模型的优缺点,对今后的研究工作做了进一步展望。  相似文献   

12.
电厂锅炉燃烧系统具有多输入、多输出、大滞后和强非线性特性.为了优化燃烧过程,提高机组热效率,关键问题是确定机组运行主要可控参数的优化目标值.本文采用基于模糊划分的多值属性数据挖掘算法来确定重要参数的运行优化目标值.将模糊集合理论引入到关联规则的研究中,利用模糊概念对数据进行概括和抽象,通过定义在属性论域上的模糊集来软化边界.此方法能将多值属性关联规则的挖掘问题转化为布尔型关联规则的挖掘问题.通过实验验证了算法的可行性并对算法的性能进行了讨论,说明了本文中提出的挖掘算法能发现关系数据库中数量型属性之间的蕴涵的关联性.最后以600 Mw机组历史实测参数为基础数据,对各种不同特征负荷工况下的数据进行挖掘.得到各自的最优值,并将这些最优值用于指导实际运行,取得了显著的效果.  相似文献   

13.
传统的数据挖掘模式和方法已经不能适应如今数据的快速增长,分析了将传统数据挖掘算法与云计算技术相结合的实现过程。通过研究云计算环境下海量数据挖掘的三层模型,发现该模型最大的优点是数据挖掘速度快、可靠性高,而且随着数据量的增加,该模型的优势也愈发明显。  相似文献   

14.
迅速确诊火电厂水汽化学过程的故障是维持水汽品质高合格率、保证机组正常高效运行的有效手段,具有重要意义。鉴于当前上述诊断方法缺乏,本文设计了1种基于可信度理论的诊断模型,构建了合理的模糊诊断规则,将可信度推理处理不确定关系的优点应用于水汽化学过程故障诊断之中;利用数据挖掘技术确定征兆权值及规则阈限,解决了可信度推理受主观因素影响过大的问题;还改进了规则可信度的设定方法,使之更接近于专家思维。实例证明,该诊断模型具有较高的准确性和实用性。  相似文献   

15.
基于数据挖掘的瓦斯灾害信息融合模型的研究   总被引:1,自引:0,他引:1  
数据挖掘和信息融合是2种功能不同的处理数据的过程,2种方法虽然原理不同,但在功能上可以相互弥补。介绍了基于数据挖掘技术建立信息融合模型的原理和算法,研究了基于模糊粗糙集的数据挖掘算法建立瓦斯灾害信息融合模型的方法,并对所建模型进行误差曲线仿真分析。  相似文献   

16.
基于模糊数据挖掘与遗传算法的异常检测方法   总被引:4,自引:0,他引:4  
建立合适的隶属度函数是入侵检测中应用模糊数据挖掘所面临的一个难点。针对这一问题,提出了在异常检测中运用遗传算法对隶属度函数的参数进行优化的方法。将隶属度函数的参数组合成有序的参数集并编码为遗传个体,在个体的遗传进化中嵌入模糊数据挖掘,可以搜索到最佳的参数集。采用这一参数集,能够在实时检测中最大限度地将系统正常状态与异常状态区分开来,提高异常检测的准确性。最后,对网络流量的异常检测实验验证了这一方法的可行性。  相似文献   

17.
一种新的关联规则挖掘方法   总被引:1,自引:0,他引:1       下载免费PDF全文
关联规则挖掘是数据挖掘的主要任务之一。为了进一步提高关联规则挖掘算法的认知特性和运算效果,提出了一种新的关联规则挖掘思想并由此构造了一种基于规则模糊认知图的关联规则挖掘算法。该算法使用规则模糊认知图进行知识表示,对每个挖掘到的关联规则进行可达模糊推理,从而减少了与数据库交互的次数。实验证明该方法与Apriori的关联规则算法相比,提高了关联规则挖掘的效率,增强了智能化程度。  相似文献   

18.
基于SQL Server 2000下数据挖掘算法的研究   总被引:1,自引:0,他引:1  
微软的SQL Server2000是当今最流行的数据库管理软件之一,研究了在SQL Server 2000上数据挖掘实现方面的决策树算法.决策树算法通过构造精度高、小规模的决策树采掘训练集中的分类知识.SQL Server 2000/Analysis Service两层结构决策树,采用了以类记数表及深度优先策略生成,在建树算法和数据库间设立数据挖掘中间件.并讨论了通过使用像SQL Server 2000 Analysis Service这样的典型工具来如何实现数据挖掘模型的创建,且为商业组织的决定挖掘出必要的数据.  相似文献   

19.
针对面向属性的归纳方法及粗糙集方法对知识粒性连续性的特点,将两者有机结合,利用面向属性归纳方法对数据进行泛化,再用属性的信息增益技术寻找泛化属性之间的数据依赖关系,能快速地在数据集中挖掘分类规则。将其应用于经典的仿真算例中,仿真结果合理、可靠。  相似文献   

20.
现有的电力仪表图像智能监控系统存在着稳定性差、效率低下的弊端,为了解决上述问题,引入数据挖掘技术对电力仪表图像智能监控系统进行设计与研究。电力仪表图像智能监控系统硬件设计包括图像采集单元、数据挖掘单元、无线通信单元与控制器单元设计,软件设计包括数据挖掘终端节点软件、无线通信协调器节点软件与控制器软件设计。通过系统硬件与软件的设计,实现了电力仪表图像智能监控系统的运行。通过仿真对比实验得到,与现有的电力仪表图像智能监控系统相比,设计的电力仪表图像智能监控系统极大地提升了系统的稳定性与监控效率,充分说明设计的电力仪表图像智能监控系统具备更好的监控性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号