首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 310 毫秒
1.
针对支持向量数据描述中噪声和孤立点带来的过拟合问题,提出了一种Vague集的支持向量数据描述(VFSVDD),利用模糊k-均值聚类方法生成每个训练样本的真、假隶属度,可以精细地控制训练样本对超球面边界的影响。用UCI机器学习数据集的数据实验验证了VFSVDD的有效性。  相似文献   

2.
陈宏昆  察豪  刘立国  孟薇 《计算机应用》2018,38(11):3332-3335
对远海大面积海域进行航道提取,由于缺少连续的船舶航行数据,传统轨迹聚类算法不再适用。针对该问题,提出了一种利用Hough变换提取船舶航道的方法。基于船舶自动识别系统(AIS)数据,对监视海域划分网格,分析海上船舶密度分布;针对网格大小影响密度分布分辨力问题,采用中值滤波和形态学滤波对船舶密度分布进行修正。基于此利用Hough变换和核密度估计结合的方法提取海上船舶航道,估计航道宽度,用真实历史AIS数据对该方法进行实验验证。实验结果表明:轨迹聚类算法无法提取船舶密度较低区域的航道,轨迹簇内的船舶轨迹数量占该区域轨迹总数的29.81%;而所提方法提取的航道内轨迹数量占比达95.89%,证明了所提方法的有效性。  相似文献   

3.
基于K-均值聚类和凝聚聚类的离群点查找方法   总被引:1,自引:1,他引:1       下载免费PDF全文
离群点发现是数据挖掘研究的一个重要方面。根据数据流的特点,给出了一种基于K-均值聚类和凝聚聚类的离群点发现方法,先用K-均值聚类对数据流进行处理,生成中间聚类结果,然后用凝聚聚类对这些中间结果进行再次选择,最后找出可能存在的离群点。  相似文献   

4.
如何实现数据的安全共享,促进多源数据的碰撞、融合是当前学术界和产业界共同面临的重要技术挑战之一,近年来,联邦学习作为应对这一挑战的新技术受到了广泛的关注,已在智慧医疗、智慧城市建设等领域得到应用,但是在充满潜力的轨迹数据挖掘领域却鲜有研究。为了解决这个问题,提出一种安全的、分布式的基于联邦学习的谱聚类算法框架FSC(federated spectral clustering),并应用于船舶AIS(automatic identification system)轨迹数据谱聚类。该算法通过加密样本对齐技术和同态加密技术,在保证用户数据安全的前提下实现了多参与方联合训练机器学习模型。实验部分以合成数据和船舶AIS轨迹数据为样本,通过与其他聚类算法对比,验证算法具有良好的聚类性能;聚类结果能够准确提取水域船舶的主要航线,可为海事监管系统智能化提供技术支撑。  相似文献   

5.
离群点检测问题中的数据可被看作是正常点与异常点在空间中的高度混合,在减少正常点损失的前提下,离群点通常包含在离聚类中心最远的样本集中。受这种思想启发,提出一种针对高维稀疏数据的基于插值的离群点检测方法,该方法在K-means基础上应用遗传算法对原始数据进行插值处理,解决了K-means聚类中稀疏数据容易被合并的问题。实验结果表明,对比基于传统K-means聚类的离群点检测方法以及几种典型的基于改进K-means的检测方法,本文 方法损失的正常点更少,提高了检测的准确率和精确率。  相似文献   

6.
提出一种基于网格的带有参考参数的聚类算法,通过密度阈值数组的计算,为用户提供有效的参考参数,不但能满足一般的聚类要求,而且还能将高密度的聚类从低密度的聚类中分离出来,解决了传统网格聚类算法在划分网格时很少考虑数据分布导致聚类质量降低的问题。实验仿真表明,该算法能有效处理任意形状和大小的聚类,很好地识别出孤立点或噪声,并且有较好的精度。  相似文献   

7.
基于k均值分区的数据流离群点检测算法   总被引:10,自引:0,他引:10  
离群知识发现是数据挖掘研究的一个重要方面,数据流离群点挖掘更因其挖掘对象具有动态性、不可复读性、数据量大等特点而成为离群知识发现研究的一个难点.提出一种基于k均值分区的流数据离群点发现算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后在这些均值参考点中,根据离群点的定义找出可能存在的离群点.理论分析和实验结果表明,算法可以有效解决数据流离群点检测问题,算法是有效可行的.  相似文献   

8.
基于两阶段聚类的洗钱行为识别   总被引:2,自引:0,他引:2       下载免费PDF全文
吴玉霞  牟援朝 《计算机工程》2010,36(15):60-62,65
通过改进层次聚类和k-means聚类,建立两阶段聚类方法。采用两阶段聚类识别出异常点并得到高质量的聚类结果。结合证券公司客户真实交易数据和人工数据,使用Clementine进行建模从而实现聚类过程,识别出异常值并计算可疑记录的可疑程度,为金融情报部门提供了高质量的调查数据。  相似文献   

9.
针对异常离群点对k-means ■算法的聚类精确度影响较大且在确定中心点过程中会泄露聚类数据隐私的问题,提出DPk-means ■算法。标记离群点,降低离群点对k-means ■算法聚类精确度的影响,将差分隐私应用于k-means ■聚类算法中保护聚类数据隐私。在选择聚类初始中心点和迭代求取均值中心点的过程中,应用拉普拉斯机制注入噪声,解决数据隐私泄露的问题。通过隐私预算动态变化对聚类结果准确性的影响及同类算法对比实验分析验证,DPk-means ■算法能够提供更高的隐私保护水平且保证聚类结果的准确性。  相似文献   

10.
渔情预测,即预测未来鱼群的位置和该区域内鱼量的丰富度.通过了解未来的渔情信息,管理者可以制定行之有效的策略,对渔民来说也可以节省捕鱼过程中的资源消耗.本文从海洋环境遥感数据与AIS渔船轨迹数据着手,分析挖掘鱼群的分布状况,进而对未来的渔情进行预测.根据作业方式的不同,渔船可以分为多种类型,如围网、刺网、拖网、张网等,针...  相似文献   

11.
相比于k-means算法,模糊C均值(FCM)通过引入模糊隶属度,考虑不同数据簇之间的相互作用,进而避免了聚类中心趋同性问题.然而模糊隶属度具有拖尾和翘尾的结构特征,因此使得FCM算法对噪声点和孤立点很敏感;此外,由于FCM算法倾向于将各数据簇均等分,因此算法对数据簇大小也很敏感,对非平衡数据簇聚类效果不佳.针对这些问...  相似文献   

12.
传统的道路数据获取方法成本高、更新慢等无法适用于海洋航道的获取,从众源轨迹数据中提取道路或航道信息具有成本低、更新快等特性,然而,由于船舶轨迹数据噪声多、数据量大、不同区域分布不均使得航道边界提取面临较大挑战。针对该问题,提出一种基于大规模船舶轨迹数据进行航道边界提取的方法。首先对大规模的船舶轨迹数据进行并行化去噪、插值、轨迹分段;然后,基于并行化及基于Geohash编码的空间聚类,将轨迹数据化简为多个方形区域的点集数据;其次,对其进行窗口划分,对传统的NiBlack方法进行扩展,提出SpatialNiBlack算法,对方形区域进行航道识别;最后,提出一种新的提取算法del-alpha-shape,基于航道识别结果获得航道边界。理论分析与实验结果表明,所提方法在最大密度值是200,最小密度值是10,窗口长和宽分别为5和5时,可同时达到86.7%的准确率和79.4%的召回率。实验结果表明,该方法可以从大规模的轨迹数据中提取有价值的航道边界,是一种有效的航道提取方法。  相似文献   

13.
针对传统k-均值算法对初始聚类中心敏感的问题,提出了启发式初始化独立的k-均值算法。该算法引入prim算法选择k个初始聚类中心,且通过设置阈值参数θ,避免同一类中的多个数据对象同时作为初始聚类中心,否则将导致聚类迭代次数增加,并得到错误的聚类结果。与传统的k-均值算法和基于遗传算法的k-均值聚类算法相比,实验结果表明改进的算法不仅降低了初始聚类中心选取的随机性对聚类性能产生的影响,有效减少了聚类迭代次数,而且降低了离群点对聚类性能的影响,从而验证了算法的可行性和有效性。  相似文献   

14.
目前我国正在大力推行"一带一路"航海战略,航海事业蓬勃发展,大量新码头正在修建中。如何快速、准确地更新码头的空间信息,对于分析进出口贸易、提高码头服务效率等具有很强的现实意义。当前我国主要通过人工测绘手段更新海图,更新间隔在3~12月,远不能满足需求。而利用包括国际海事卫星C系统、北斗卫星、Argos卫星等手段获取的船舶位置数据来进行码头挖掘,为解决获得码头空间信息问题提供了新手段。利用自动识别系统AIS获取的海量船舶位置数据,提出了一种基于自优化参数的码头挖掘算法DBSCAN。一方面能够面向不同船舶类型的不同密度分布进行自动学习优化DBSCAN核心参数,进而聚类出包含码头的停泊区域,具备很强的灵活性;另一方面,融合岸基结构物等空间数据,对停泊区域中的锚区和临时停泊区域等进行排除,获取码头的空间信息,并且达到很高的准确率。利用2012年4月至2014年4月两年中国滚装船的真实轨迹数据和国际滚装船真实轨迹数据进行了码头挖掘实验,准确率能够达到93%以上。  相似文献   

15.
古凌岚  彭利民 《计算机科学》2016,43(12):213-217
针对传统的基于欧氏距离的相似性度量不能完全反映复杂结构的数据分布特性的问题,提出了一种基于相对密度和流形上k近邻的聚类算法。基于能描述全局一致性信息的流形距离,及可体现局部相似性和紧密度的k近邻概念,通过流形上k近邻相似度度量数据对象间的相似性,采用k近邻的相对紧密度发现不同密度下的类簇,设计近邻点对约束规则搜寻k近邻点对构成的近邻链,归类数据对象及识别离群点。与标准k-means算法、流形距离改进的k-means算法进行了性能比较,在人工数据集和UCI数据集上的仿真实验结果均表明,该算法能有效地处理复杂结构的数据聚类问题,且聚类效果更好。  相似文献   

16.
K-means is one of the most widely used clustering algorithms in various disciplines, especially for large datasets. However the method is known to be highly sensitive to initial seed selection of cluster centers. K-means++ has been proposed to overcome this problem and has been shown to have better accuracy and computational efficiency than k-means. In many clustering problems though – such as when classifying georeferenced data for mapping applications – standardization of clustering methodology, specifically, the ability to arrive at the same cluster assignment for every run of the method i.e. replicability of the methodology, may be of greater significance than any perceived measure of accuracy, especially when the solution is known to be non-unique, as in the case of k-means clustering. Here we propose a simple initial seed selection algorithm for k-means clustering along one attribute that draws initial cluster boundaries along the “deepest valleys” or greatest gaps in dataset. Thus, it incorporates a measure to maximize distance between consecutive cluster centers which augments the conventional k-means optimization for minimum distance between cluster center and cluster members. Unlike existing initialization methods, no additional parameters or degrees of freedom are introduced to the clustering algorithm. This improves the replicability of cluster assignments by as much as 100% over k-means and k-means++, virtually reducing the variance over different runs to zero, without introducing any additional parameters to the clustering process. Further, the proposed method is more computationally efficient than k-means++ and in some cases, more accurate.  相似文献   

17.
发现离群点并合理地解释离群点对数据挖掘结果的运用有重要意义,通过对离群点属性的检测可以发现其离群特性,进而更加准确地解释聚类结果。针对在聚类结果中出现的不同离群点及其特性,提出将层次聚类算法应用于离群点分析,通过元胞自动机距离变换算法实现凝固层次聚类,实现了簇间距离的度量;定义了演化周期上的平均度量距离,能够发现不同聚类层次上的离群点及其离群特性。该算法能够在得到聚类结果的同时,有效地解释离群点的属性,并具有较低的计算复杂度和并行计算以及向高维空间扩展的特性。通过试验数据进行了实证研究,验证了算法的有效性。  相似文献   

18.
基于层次聚类的孤立点检测方法   总被引:2,自引:1,他引:2       下载免费PDF全文
孤立点检测是数据挖掘过程的重要环节,提出了基于层次聚类的孤立点检测(ODHC)方法。ODHC方法基于层次聚类结果进行分析,对距离矩阵按簇间距离从大到小检测孤立点,可检测出指定离群程度的孤立点,直到达到用户对数据的集中性要求。该方法适用于多维数据集,且算法原理直观,用户友好,对孤立点的检测准确率较高。在iris、balloon等数据集上的仿真实验结果表明,ODHC方法能有效地识别孤立点,是一种简单实用的孤立点检测方法。  相似文献   

19.
一种基于数据场的K-均值算法   总被引:1,自引:1,他引:0  
简艳  贾洪勇 《计算机应用研究》2010,27(12):4498-4501
针对K-均值算法在随机选取初始类中心时存在不足、对噪声和孤立点敏感、不适用于发现大小差别很大的类的问题,借鉴分子间的相互作用力模型,将文本模拟成数据场中的数据点,综合考虑文本间的相似度和相异度,提出一个新的数据势值计算公式。根据文本数据的势,剔除孤立点、确定初始类中心。实验结果证明,该算法可以提高收敛速度,消除噪声和孤立点对聚类结果的影响,提高聚类的精度,适用于主题分布不均匀的文本集。  相似文献   

20.
AIS(Automatic Identification System)是一种船舶的自动识别系统,可以提供船舶的时间戳、经纬度、航向角度、速度等数据信息.本文针对船舶航行轨迹多维度的特点以及对船舶轨迹预测的精确度和实时性的需求,提出了一种基于图像检测和匹配的计算轨迹相似度的方法.该方法首先将所有渔船轨迹数据进行可视化,再通过ORB(Oriented FAST and Rotated BRIEF)算法和BF(Brute-Force)匹配来计算轨迹图片相似度用于划分渔船轨迹类型.实验结果显示,通过该计算相似度的方法具有精度高、易实现的特点,与传统计算方法相比,其在处理轨迹数据的效率和速度更具有优越性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号