排序方式: 共有23条查询结果,搜索用时 62 毫秒
1.
随着数据科学研究的不断深入,异常数据对数据分析工作的干扰也越来也大,如何有效检测异常数据已成为数据研究的关键问题之一.目前传统基于距离的方法仅考虑单个对象的异常性,缺少对正常对象之间如何抱团的分析,针对此问题,论文提出了一种基于邻近性(Proximity)和团(Clique)的异常检测算法——PCOD(Proximity Cliques Outlier Detec-tion)算法.该算法引入了图论中团的概念,通过团来解释正常对象之间的连接,根据数据对象间的连接性来分析数据点是否为异常点.PCOD算法主要包括两个步骤:首先,根据数据对象之间的邻近性,将数据中各个对象表示为存在边的无向图;再递归搜索图获取所有团集合,对所有的团进行分析并检测出没有抱团的异常点.最后,使用Arrhythmia、Pima、Vowel等UCI数据集进行实验,实验结果表明PCOD算法在精确率方面优于同类异常检测算法. 相似文献
2.
基于概念格的天体光谱离群数据识别方法 总被引:2,自引:0,他引:2
在宇宙中, 寻求特殊的、未知的天体是人类探索宇宙奥妙所追求的目标之一, 天体光谱离群数据识别方法是实现该目标的有效手段之一. 将概念格中每个概念节点内涵描述为天体光谱数据特征子空间, 提出了一种天体光谱离群数据识别方法. 首先将概念节点的内涵缩减看作天体光谱特征子空间, 并依据稀疏度系数阈值确定稀疏子空间; 其次对于稀疏子空间, 依据稠密度系数判定祖先概念节点内涵是否为稠密子空间, 进而判断出概念节点外延中包含的数据对象是否为天体光谱离群数据; 最后以离散化天体光谱数据作为形式背景, 实验验证了利用该方法识别出的天体光谱离群数据是准确的、完备的和有效的. 相似文献
3.
基于B/C/S模式的MIS系统构建及应用 总被引:1,自引:0,他引:1
对C/S模式和B/S模式的工作特点进行了分析,并根据MIS系统中用户对信息处理的实际要求,给出了基于B/C/S模式的信息管理系统的构建方法,该方法充分利用了C/S模式和B/S模式各自的优势。最后,通过实例展示了这一方法在学籍管理系统中的具体应用。 相似文献
4.
针对当前聚类方法存在的缺点,提出一种高效的高维数据硬划分算法,在此基础上提出了一种分阶段模糊聚类方法.第一阶段,利用硬划分算法对数据聚类,克服了模糊聚类算法对初始值敏感的缺点.第二阶段,以第一阶段运算结果作为初始值,进行模糊聚类的,并将模拟退火算法引入模糊聚类,从而保证了聚类结果的全局最优性.实验结果表明,该方法是可行的、有价值的. 相似文献
5.
介绍了离群数据挖掘的基本概念,全面回顾分析并总结了离群数据挖掘研究的历史与现状,以及离群数据挖掘的几类方法,介绍了一种传统的基于距离的离群数据挖掘算法SL算法,并对该方法进行了分析和评价,指出传统方法的优点和不足,展望了今后的研究工作。 相似文献
6.
频繁模式挖掘是影响关联规则挖掘效率的主要步骤.采用一阶谓词逻辑作为用户感兴趣的背景知识表示技术,提出一种基于背景知识的频繁模式树-CFP-Tree(Constrain Frequent Pattern Tree),并给出了其构造算法CFPT-Construct,从而提高关联规则挖掘结果的针对性,降低了FP-Tree构造的复杂性,有效地解决了FP-Tree构造算法中数据存储的瓶颈问题.最后以国家天文台提供的天体光谱数据作为数据集,实验验证了算法的有效性、针对性和高效率. 相似文献
7.
8.
针对动态时序数据部分周期模式挖掘过程存在的计算复杂度过高和扩展性差等问题,提出了一种结合多尺度理论的时间序列部分周期模式挖掘算法(MSI-PPPGrowth),所提算法充分利用了时序数据客观存在的时间多尺度特性,将多尺度理论引入时序数据的部分周期模式挖掘过程。首先,将尺度划分后的原始数据以及增量时序数据作为更细粒度的基准尺度数据集进行独立挖掘;然后,利用不同尺度数据间的相关性实现尺度转换,以间接获取动态更新后的数据集对应的全局频繁模式,从而避免了原始数据集的重复扫描和树结构的不断调整。其中,基于克里金法并考虑时序周期性设计了一个新的频繁缺失计数估计模型(PJK-EstimateCount),以有效估计在尺度转换过程中的缺失项支持度计数。实验结果表明,MSI-PPPGrowth具有良好的可扩展性和实时性,尤其是对于稠密数据集,其性能优势更为突出。 相似文献
9.
介绍了离群数据挖掘的基本概念,全面分析并总结了离群数据挖掘研究的历史与现状,以及离群数据挖掘的几类方法,并对一些典型方法进行了分析和评价,指出传统方法的优点和不足,展望了今后的研究工作。 相似文献
10.
随着各种网约车平台的蓬勃兴起,网约车犯罪率显著增加,而其行车轨迹往往表现出异常现象.为有效检测存在异常行为的轨迹,提出一种面向道路消耗的车辆异常轨迹检测算法.首先,将建模重点由轨迹数据转移到道路本身,对道路消耗进行建模,同时兼顾时间和距离的影响,有效提高了检测结果的准确性;其次,通过地图匹配概率将轨迹映射到路网空间,有效提高了参与检测的数据质量;然后,依据道路节点和车辆行驶方向是否改变对轨迹进行压缩,减少了内存消耗并提高了算法的效率;第四,提出并定义了消耗阈值矩阵的概念,扩大了算法检测的数据范围;最后,采用真实数据集验证了算法的有效性,并与iBOAT、TRAOD、TADSS和TPRO算法进行对比,验证了本算法具有更高的效率和准确性. 相似文献