共查询到20条相似文献,搜索用时 46 毫秒
1.
信息熵是粒计算理论中度量不确定信息的重要工具之一, 已有的异常数据挖掘算法主要针对确定性的异常
数据挖掘, 采用信息熵度量不确定性数据进行异常数据挖掘的研究报道较少. 鉴于此, 在引入信息熵概念的基础上,
定义基于信息熵的异常度来度量数据之间的异常程度, 并提出基于信息熵的异常数据挖掘算法, 该算法可有效进行
异常数据的挖掘. 理论分析与实验结果表明, 所提出算法是有效可行的.
2.
粗糙集理论认为知识就是分类。对知识的分类能力给予了量化,提出利用知识的划分粒度来定量地表示知识的分类能力。首先建立了知识与其划分粒度间的关系;其次,基于划分粒度定义了属性的重要性,并以此为启发式信息设计了一个信息系统的约简算法;最后通过实例表明,该算法是高效的。 相似文献
3.
粒度计算及其在数据挖掘中的应用 总被引:1,自引:0,他引:1
粒度计算涵盖了所有在处理问题过程中使用粒度的理论、方法、技术和工具。本文首先简要地介绍了粒度计算的基本思想、基本问题以及它的三个主要模型(模糊集、粗糙集和商空间),然后综述了粒度计算在数据挖掘中的应用。 相似文献
4.
非协调信息系统的知识挖掘是传统数据挖掘方法实践的难点和最重要的研究方向之一。本文在经典粗糙集理论的基础上进行粒计算结构的设计与相应的计算模型研究,提出了基于上述理论的粒度矩阵非协调信息系统知识挖掘方法。首先定义了保留冗余数据的粒度矩阵、决策规则的协调度算法,以及基于可控协调度的粒度矩阵的可导度计算方法,其次在该研究基础上设计了非协调信息系统的属性约简算法和属性值约简算法。最后的仿真实验和初步的企业应用验证了算法对非协调信息处理的鲁棒性和可用性。本研究为非协调信息系统的知识挖掘提供了一个有效的粒计算模型。 相似文献
5.
基于笛卡尔积,确立双直积论域覆盖空间,并研究其中的粗糙熵与知识粒度.首先,将双论域近似空间诱导出两个单论域覆盖空间,构建双直积论域覆盖空间.将双论域粗糙熵与知识粒度定位于一个单论域覆盖空间.通过结构模拟与粒替换,确定对称单论域覆盖空间与双直积论域覆盖空间的粗糙熵与知识粒度.对于三套双度量,得到相关的双量和、上下确界、粒化单调性及三支线性组合性.最后,通过数据模拟与仿真实验验证度量构建与理论性质的有效性. 相似文献
6.
杨春亮 《数字社区&智能家居》2009,5(4):2704-2705,2711
该文从粒度计算的角度对粗糙集理论的属性约简进行研究,定义了粒度的概念,并在此基础上提出了一种新的属性约简算法。实验分析表明,这种粒度计算方法能得到信息系统的最小约简。 相似文献
7.
8.
杨春亮 《数字社区&智能家居》2009,(10)
该文从粒度计算的角度对粗糙集理论的属性约简进行研究,定义了粒度的概念,并在此基础上提出了一种新的属性约简算法。实验分析表明,这种粒度计算方法能得到信息系统的最小约简。 相似文献
9.
基于粒度商的决策树构造算法 总被引:1,自引:0,他引:1
以粗糙集理论为基础,结合知识关系具有粒度性质的原理,从条件属性集和决策属性集之间关联度来预测和表达决策属性集的一种优性度量,从而定义了粒度商的概念.基于知识粗糙性的粒度原理,以决策树方法为理论基础,把粒度商的概念应用到决策树方法中,提出了一种新的构建决策树的方法,并详细分析了该算法的优点.实例研究表明,提出的基于粒度商的决策树构造算法是可靠、有效的,为进一步研究知识的粒度计算提供了可行的方法.但没有研究不同粒度世界之间的联系,这方面工作还有待进一步研究. 相似文献
10.
从粒度计算的角度对粗糙集理论的属性约简进行研究,分别基于代数方法和信息论方法定义了粒度差和粒度熵的概念,并在此基础上提出了两种新的属性约简算法.实验分析表明,这两种可靠有效的粒度计算方法都能得到信息表的最小约简,为进一步研究知识的粒度计算提供了可行的方法. 相似文献
11.
针对已有的基于网格的离群点挖掘算法挖掘效率低和对于大数据集适应性差的问题,提出基于数据分区和网格的离群点挖掘算法。算法首先将数据进行分区,以单元为单位筛选非离群点,并把中间结果暂存起来;然后采用改进的维单元树结构维护数据点的空间信息,以微单元为单位进行非离群点筛选,并通过两个优化策略进行高效操作;最后以数据点为单位挖掘离群点,从而得到离群数据集合。理论分析和实验结果表明了该方法是有效可行的,对大数据集和高维数据具有更好的伸缩性。 相似文献
12.
针对混合属性离群点检测问题,提出基于邻域近似精度的混合属性离群点检测方法。首先,定义异构邻域关系度量来表示混合数据之间的近邻性。然后,定义一种特定的邻域近似精度来构建邻域粒离群度。进而,定义基于邻域近似精度的离群因子及提出基于邻域近似精度的离群点检测(Nighborhood approximation accuracy-based outlier detection,NAAOD)。最后,用UCI数据集对NAAOD算法的有效性进行了验证。理论研究和实验结果均表明,NAAOD算法对混合属性离群点检测是有效的。 相似文献
13.
14.
离群数据挖掘是数据挖掘的重要任务之一。首先分析了离群数据及其挖掘方法,然后根据LF算法和CSI算法,提出了基于群体智能的离群数据挖掘算法,并进行了仿真实验。实验结果显示了基于群体智能的离群数据挖掘算法的有效性。与其它方法相比,该算法避免了用户在设定参数初始值时给算法带来的影响,并且不需要设定初始聚类中心,因此具有更好的鲁棒性。 相似文献
15.
离群点是与其他正常点属性不同的一类对象,其检测技术在各行业上均有维护数据纯度、保障业内安全等重要应用,现有算法大多是基于距离、密度等传统方法判断检测离群点.本算法给每个对象分配一个"孤立度",即该点相对其邻点的孤立程度,通过排序进行判定,比传统算法效率更高.在AP(affinity propagation)聚类算法的基础上进行改进与优化,提出能检测异常数据点的算法APO(outlier detection algorithm based on affinity propagation).通过加入孤立度模块并计算处理样本点的孤立信息,并引入放大因子,使其与正常点之间的差异更明显,通过增大算法对离群点的敏感性,提高算法的准确性.分别在模拟数据集和真实数据集上进行对比实验,结果表明:该算法与AP算法相比,对离群点的敏感性更加强烈,且本算法检测离群点的同时也能聚类,是其他检测算法所不具备的. 相似文献
16.
针对离群点检测中传统距离法不能有效处理符号型属性和经典粗糙集方法不能有效处理数值型属性的问题,利用邻域粗糙集的粒化特征提出了改进的邻域值差异度量(NVDM)方法进行离群点检测。首先,将属性取值归一化并以混合欧氏重叠度量(HEOM)和具有自适应特征的邻域半径构建邻域信息系统(NIS);其次,以NVDM构造对象的邻域离群因子(NOF);最后,设计并实现了基于邻域值差异度量的离群点检测(NVDMOD)算法,该算法在计算单属性邻域覆盖(SANC)的方式上充分利用有序二分和近邻搜索思想改进了传统的无序逐一计算模式。在UCI标准数据集上与现有离群点检测算法——邻域离群点检测(NED)算法、基于距离的离群点检测(DIS)算法和K最近邻(KNN)算法进行了实验对比、分析。实验结果表明,NVDMOD算法具有更好的适应性和有效性,为混合型属性数据集的离群点检测提供了一条更有效的新途径。 相似文献
17.
聚类是数据挖掘领域中最活跃的研究分支之一,并在其他的科学领域也有广泛的应用。设计了基于加权快速聚类的异常数据挖掘算法,以便能快速发现异常数据。首先通过对数据的每个属性赋予一定权值,权值的大小要体现其对分类的贡献度,并根据属性权值的特点,选择比较优良的初始分区,然后进行多次迭代,得到接近最优分区,接着运用一定规则,发现异常数据类,最后实践证明该技术取得很好的社会效果。 相似文献
18.
19.
曹月芹 《计算机工程与应用》2013,49(17):108-111
现实世界中常常包含着海量的、不完整的、模糊及不精确的数据或对象,使得模糊信息粒化成为近年来研究趋势。利用论域上的模糊等价关系定义了模糊粒度世界的模糊知识粒度,给出了新的属性约简条件和核属性计算方法,以便更好地挖掘出潜在的、有利用价值的信息。针对粗糙集在对连续属性约简的过程中容易造成信息缺失和不能对模糊属性处理的现象,提出了一种基于模糊知识粒度对混合决策系统约简的启发式算法,省去了连续属性离散化过程,减少了计算量,为离散值域和混合值域约简提供了统一的方法。最后通过实例验证了其有效性。 相似文献
20.
基于粒计算的数据分片算法 总被引:1,自引:0,他引:1
提出了一种基于粒计算的数据分片模型及算法,该算法在优先考虑数据本地化的基础上,可动态调整全集划分的粗细,将全集划分的数据分片的数量调整到一个比较合理的状态,既能减少网络流量、降低整个分布式系统开销,同时又控制了数据分片数量,减少了数据连接工作量,从而提高系统效率。 相似文献