首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
挖掘隐藏在网络中不同于正常数据对象的离群点是数据挖掘的重要任务之一.目前,针对双类型异质信息网络离群点检测的研究工作相对较少,原本适用于同质网络的离群点检测方法将很难适用于双类型异质网络.为此,提出了异质信息网络中基于排序和聚类的离群点检测方法(RKBOutlier).从异质信息网络中抽取两种类型的对象以及链接两种对象的语义信息,将待检测的数据作为属性对象,将另一类型数据作为目标对象,对目标对象进行聚类来检测属性对象在各个聚类中的分布情况,数据分布异常的对象即为离群点.将排序和聚类相结合来显著提高聚类的准确度.实验结果表明,RKBOutlier可以在双类型异质信息网络中有效地检测出离群点.  相似文献   

2.
通过离群点检测可以及时发现计算机网络中的异常,从而为风险预警和控制提供重要线索。为此,设计一种基于局部信息熵的计算机网络高维数据离群点检测系统。在高维数据采集模块中,利用Wireshark工具采集计算机网络原始高维数据包;并在高维数据存储模块中建立MySQL数据库、Zooleeper数据库与Redis数据库,用于存储采集的高维数据包。在高维数据离群点检测模块中,通过微聚类划分算法划分存储的高维数据包,得到数个微聚类;然后计算各微聚类的局部信息熵,确定各微聚类内是否存在离群点;再依据偏离度挖掘微聚类内的离群点;最后,利用高维数据可视化模块呈现离群点检测结果。实验证明:所设计系统不仅可以有效采集计算机网络高维数据并划分计算机网络高维数据,还能够有效检测高维数据离群点,且离群点检测效率较快。  相似文献   

3.
文章首先采集学习者在线学习痕迹数据和在线测试成绩,并通过MapReduce程序对学习痕迹数据进行清洗和预处理,从而得到了学习者的学习行为数据。其次,以在线学习行为的投入度、情感和认知为切入点,构建学习者的低度投入、中度投入和高度投入3项评测指标,利用K-means聚类模型及高斯朴素贝叶斯分类模型对在线学习者的行为特征和结果特征进行标签分类,形成3类学习者群体画像。最后,借助Echarts和Seaborn数据图表库将学习者画像结果可视化展示,以便让学习者直观地了解自己的学习状况,并帮助学习者对学习方法做出相应调整,进而提升学习质量。  相似文献   

4.
随着信息化技术的不断推广,各大学校纷纷依托在线平台开展线上教学活动,如何有效利用平台上的学习数据更好地精准教学成为目前重要的研究领域之一。文章提出了构建学生画像的流程,包括采集“双平台”——超星学习通平台和头歌教学实践平台上的学生学习数据,对数据进行预处理,构建学生个体画像以及基于K-means聚类算法将学习数据进行聚类生成学生群体画像。最终,将学生分为三类不同特征的群体,教师针对不同学生群体画像进行分析,制定更科学的分类教学策略,实现个性化教学。  相似文献   

5.
目前提出的电力大数据异常值检测方法由于检测过程中无法提取异常特征,因此检测到的异常电流和异常电压所在时间不同,为此提出基于离群点检测算法的电力大数据异常值检测方法。利用高斯混合模型中提取电力大数据异常值的特征,通过离群点检测出符合距离要求的异常值,初步检测易于识别的异常数据。分析离群点与异常值分布密度之间的关联性,确定更深层次的异常值,使用离群点进入数据簇中和聚类中心中寻找缺少异常特征的异常值。实验结果表明,基于离群点检测算法的电力大数据异常值检测方法检测到的异常数据离散情况和振幅波动响应状态具有一致性,异常电流和异常电压所在时间都为0.3~0.4 s,证明了方法的可行性。  相似文献   

6.
基于激光雷达传感器,提出了一种道路路锥识别方法。首先,在传统DBSCAN聚类算法的基础上改进算法搜寻核心点的方式,对雷达所采集的数据进行快速地分割、聚类。接着,分析类簇,对每帧数据的类簇进行特征采样并赋予标签值。最后,通过支持向量机(SVM)训练样本数据,利用网格化搜索与交叉验证法优化SVM参数,得到类簇分类模型,用于识别路锥。实验结果表明,改进后的DBSCAN算法计算效率有了显著提升,并且对点云的聚类更具有针对性。经过多次随机数据集检测,分类模型的准确率保持在93以上,实现了对路锥的有效识别。  相似文献   

7.
孙爱程 《无线电工程》2012,42(6):45-47,51
离群数据检测是找出与正常数据不一致的数据。由于某种原因,会出现一些噪声数据。针对噪声数据的特征,提出了一个有效的离群点检测算法。通过层次k-means算法对数据集进行聚类,从包括离群点可能性最大的簇开始进行检测,在检测过程中提出基于熵值距离来衡量数据点的离群程度,并通过剪枝规则来减少检测次数,从而提高了检测的效率。仿真结果表明该算法对出现的噪声数据具有较好的过滤效果。  相似文献   

8.
9.
在大数据时代下的数据量呈指数级增长,基于统计模型的用户画像已经无法满足人们的个性化要求,利用学习行为数据绘制用户学习画像将成为未来教学模式的一种趋势。文章对在线学习者的日志和行为数据提取特征数据集,使用主流的大数据生态框架部署大数据离线批处理平台,并在此平台上构建学习者画像的标签体系以及使用规则匹配的机器学习算法完成用户画像模型的构建。与传统的用户画像相比,文中提出的标签模型和用户画像模型能挖掘出较为准确的学习者画像数据,以便为个性化推荐服务提供更好的支持。  相似文献   

10.
针对密度峰值聚类算法需要人工设置参数、时间复杂度高的问题,提出了基于快速密度峰值聚类离群因子的离群点检测算法。首先,使用k近邻算法代替密度峰值聚类中的密度估计,采用KD-Tree索引数据结构计算数据对象的k近邻;然后,采用密度和距离乘积的方式自动选取聚类中心。此外,定义了向心相对距离、快速密度峰值聚类离群因子来刻画数据对象的离群程度。在人工数据集和真实数据集上对所提算法进行实验验证,并与一些经典和新颖的算法进行对比实验,从正确性和时间效率上验证了所提算法的有效性。  相似文献   

11.
为解决点云特征区域分割过程中的过分割和欠分割问题,提出一种多聚类混合数据分割算法。算法首先利用改进的K-means聚类将散乱点云模型划分出平坦区域与特征区域;再利用基于高斯球的Mean-shift聚类对特征区域进行细分割,接着使用区域生长对细分割后的结果进行调整,最终实现点云数据的准确分割。并用该算法与K-mans、Mean-shift算法对相同模型在相同参设下进行分割实验,其结果表明,该算法能有效、准确地根据点云特征类型实现数据分割,同时有效避免特征的过分割和欠分割现象。  相似文献   

12.
吴远超  范磊 《通信技术》2020,(2):312-317
离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象。高维度环境是离群点检测技术的一个重要场景,现实生活中的高维数据中大量无关或嘈杂的特征给基于子空间/特征选择的高维离群点检测方法提出了重大挑战。Pang等人提出了一种将离群点打分和特征选择结合起来的方案CINFO,准确度相比传统的高维度离群点检测算法有所提升。CINFO方法在效率上有改进空间,本文通过引入扩展的孤立森林算法(Extended Isolation Forest,EIF)对CINFO方法进行改进,在几乎不损失精度的情况下,明显提升了算法效率。  相似文献   

13.
针对扫描点云存在的团簇状离散噪声去除问题,将其分为离群噪声点和孤立噪声簇,通过利用采样点及其邻域密度的相似性构建的离群因子实现对离群噪声点有效识别去除。此外使用K-means++算法对点云进行聚类处理,通过对初始聚类中心选取方式的改变,提高聚类的准确性及效率,同时提出聚类评价函数定量评价不同初始聚类中心值下的聚类效果。最后选取公开斯坦福大学扫描点云库中的公开点云集及实测鼠标点云进行实验验证,结果表明,文章算法取得显著的去噪效果,具有较高的去噪准确性和去噪效率,对具有不同强度噪声的点云模型,噪声去除率保持在的95%以上。  相似文献   

14.
基于数据加权策略的模糊聚类改进算法   总被引:2,自引:0,他引:2  
该文提出了一种数据指数加权的模糊均值聚类策略,引入了指数权因子和影响指数,使得可以在聚类过程中差异化处理各个数据。新策略和现有的Gustafson-Kessel(G-K)算法相结合,提出了一种新的模糊聚类算法DWG-K用于提高聚类质量和挖掘离群点。数据试验表明DWG-K在提高聚类质量方面优于现有的G-K;在离群点挖掘方面,DWG-K对离群点的判定是全局的,离群点的物理意义清楚,且计算效率明显高于当前广泛采用的基于密度的离群点挖掘算法。  相似文献   

15.
在基于聚类的话题检测方法上提出了一种基于SVM过滤的检测方法,该方法在聚类前将微博文本特征抽象成用于输入向量机的向量,对微博文本进行过滤,降低了计算量。并针对微博聚类的长尾现象提出了基于高频词排序的改进单遍聚类方法,能很好地检测孤立点的存在。实验表明,该方法在海量微博数据中能有效地检测出新闻话题。  相似文献   

16.
针对日志数据的异常检测获取标记数据代价过高的问题,提出一种基于模糊核聚类与主动学习的算法,即KFCM-AL算法。首先将日志解析,之后利用模糊核聚类算法将待选样本在高维空间进行划分聚类,滤去样本冗余点,同时选取聚类中心进行标记构建初始分类器,最后结合主动学习利用较小的标记代价对异常检测模型进行优化。实验结果表明,所提方法能够利用较少的标记样本获取异常检测模型的性能提升。  相似文献   

17.
针对水文行业对数据异常模式检测的实时性要求,提出一种基于特征向量的两阶段异常检测方法。先提取时间序列特征形成符号化的特征向量,再使用改进的K-means方法进行聚类,最后用改进的INN对聚类结果进行评估并将聚类后得到的类簇设成相应特征模型。实验表明,该方法实现了对字符串序列的高效准确的聚类,有效检测出异常模式。  相似文献   

18.
针对传统离群点识别方法对数据的分布形状和密度有特定要求,需设定参数的问题,提出了一种自动聚类的离群点识别方法。该方法通过引入相互K近邻数来表示数据对象的离群度,对数据的分布形状、分布密度无要求,可以输出全局离群点、局部离群点和离群簇;通过k次迭代来实现自动聚类,无需人为设定参数。通过合成数据以及UCI数据实验,验证了该方法的有效性、普适性。  相似文献   

19.
智慧校园学生数据画像生成方式研究   总被引:1,自引:0,他引:1  
《现代电子技术》2019,(21):58-62
大数据成为当下智慧校园建设的重点,目前的数字化校园拥有的数据量远远不足以实现大数据分析,厂商鼓吹的数据挖掘应用也存在各种问题,并且学生大数据并不是短时间能够建立完善的。文中研究学生数据画像生成方式,通过采集数据形成数据画像模型主框架,建立评估模型生成能力数据,利用数据表达生成雷达图,逐步建立"精英模型"等方式完善学生数据画像,并利用主动采集和人工智能辅助形式进行改进研究,探讨可行的智慧校园数据挖掘模式与应用。  相似文献   

20.
提出一种基于改进粒子群优化算法的离群点检测算法,解决高维环境下离群点挖掘效率偏低的问题。新算法能够充分发挥粒子群优化算法全局搜索的优势,并具有k均值算法快速收敛的特点,可避免粒子群优化算法的早熟,减小确定k均值算法聚类中心的计算量等问题。实验表明,该算法在高维环境下可快速有效的挖掘出离群数据的离群支持度,有较好的挖掘效率、准确率和实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号