首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
多变元时态数据大量存在于社会科学、环境监测、金融经济、医疗卫生及地理信息等领域。对多变元时态数据集进行深入分析,创新性地将经典的层次数据可视化方法Radial Tree加以改进,提出集成度量属性的Radial Tree布局算法(LAMPRT)、基于Radial Tree的具有度量属性的多变元时态数据可视化布局算法(LOVEBRT),结合相应的人机交互策略,形成可视化方法TVBRT。案例研究证明了该方法的有效性,并表明它能展示数据集中的细节内容。TVBRT方法侧重于对数据进行层次分析,适合于展示对具体度量值更为关心的数据集。  相似文献   

2.
肖文  胡娟 《计算机应用》2018,38(4):995-1000
频繁项集挖掘(FIM)是最基础的数据挖掘任务之一,被挖掘数据集的特征对FIM算法的性能有着显著影响。数据集稀疏度是体现数据集本质特征的属性之一,不同类型的FIM算法对数据集稀疏度的可扩展性有着很大的不同。针对如何量化度量数据集稀疏度及稀疏度对不同类型FIM算法性能影响等问题,首先回顾并讨论了已有的度量方法,然后提出两种新的量化度量数据集稀疏度的方法(基于事务差异度的度量方法和基于FP-Tree的度量方法)。这两种度量方法均考虑了FIM任务背景下最小支持度对数据集稀疏度的影响,反映的是事务频繁项集之间的差异度。最后通过实验验证了不同类型FIM算法对数据集稀疏度的可扩展性。实验结果表明,数据集稀疏度与最小支持度成反比,基于垂直格式的FIM算法在三类典型FIM算法中具有最佳的稀疏度可扩展性。  相似文献   

3.
为了能够更好地对非独立同分布的多尺度分类型数据集进行研究,基于无监督耦合度量相似性方法,提出针对非独立同分布的分类属性型数据集的多尺度聚类挖掘算法。首先,对基准尺度数据集进行基于耦合度量的基准尺度聚类;其次,提出基于单链的尺度上推和基于Lanczos核的尺度下推尺度转换算法;最后,利用公用数据集以及H省真实数据集进行实验验证。将耦合度量相似性(Couple metric similarity, CMS)、逆发生频率(Inverse occurrence frequency, IOF)、汉明距离(Hamming distance, HM)等方法与谱聚类结合作为对比算法,结果表明,尺度上推算法与对比算法相比,NMI值平均提高13.1%,MSE值平均减小0.827,F-score值平均提高12.8%;尺度下推算法NMI值平均提高19.2%,MSE值平均减小0.028,F-score值平均提高15.5%。实验结果表明,所提出的算法具有有效性和可行性。  相似文献   

4.
一种多变元网络可视化方法   总被引:1,自引:0,他引:1  
孙扬  赵翔  唐九阳  汤大权  肖卫东 《软件学报》2010,21(9):2250-2261
提出一种多变元网络可视化方法MulNetVisBasc,根据节点的多变元属性,使用高级星形坐标法布局网络节点,以边融合及路由技术为基础设计算法,自动有效布局网络边,实现友好的人机交互界面辅助用户进一步对数据进行分析挖掘.实验结果表明,MulNetVisBasc的可视化结果能够在直观揭示数据集多变元分布特性的同时清晰展现其网络关联特性,有助于用户发掘多变元网络数据集中潜在的隐性知识.边布局算法能够有效减少视图中的边交叉数量,且复杂度较低,适用于较大规模数据集,人机交互界面灵活方便.  相似文献   

5.
袁钟  冯山 《计算机应用》2018,38(7):1905-1909
针对离群点检测中传统距离法不能有效处理符号型属性和经典粗糙集方法不能有效处理数值型属性的问题,利用邻域粗糙集的粒化特征提出了改进的邻域值差异度量(NVDM)方法进行离群点检测。首先,将属性取值归一化并以混合欧氏重叠度量(HEOM)和具有自适应特征的邻域半径构建邻域信息系统(NIS);其次,以NVDM构造对象的邻域离群因子(NOF);最后,设计并实现了基于邻域值差异度量的离群点检测(NVDMOD)算法,该算法在计算单属性邻域覆盖(SANC)的方式上充分利用有序二分和近邻搜索思想改进了传统的无序逐一计算模式。在UCI标准数据集上与现有离群点检测算法——邻域离群点检测(NED)算法、基于距离的离群点检测(DIS)算法和K最近邻(KNN)算法进行了实验对比、分析。实验结果表明,NVDMOD算法具有更好的适应性和有效性,为混合型属性数据集的离群点检测提供了一条更有效的新途径。  相似文献   

6.
时态数据库中增量关联规则的挖掘   总被引:6,自引:0,他引:6  
时态数据库(temporal database)中的时态数据是数据信息中重要的一类,此类数据中存在着大量未知的涉及数据的变化趋势及数据增量之间相互关系方面的知识.给出了时态数据库中的相邻关系(adjacency)和增量(increment)的定义,提出了基于定量属性离散化及编码化的增量关联规则的基本模型(model of discretization & code-based increment association rules);并针对时态数据库中的属性大多为连续定量属性的特性,比较了"部分完备法"(partial completeness)、基于分类信息熵的离散化(entropy-based discretization)、C4.5、基于粗集理论的全局离散化(rough sets-based full discretization)及其改进等多种定量属性的离散化方法,结合定性属性的挖掘算法,提出了具有时间约束的增量关联规则挖掘算法TIDM;最后,讨论了互斥属性集的概念、基本特性及处理互斥属性集的基本方法,对于诸如企业风险管理的管理决策等应用是十分有意义的.  相似文献   

7.
一个具有多时间粒度时态函数依赖集的成员籍算法   总被引:4,自引:3,他引:4  
对于具有函数依赖(FDs)约束的传统关系数据库规范化理论来说,判定一个FD是否被给定FD集所逻辑蕴涵(即成员籍问题)是非常重要的,这有助于设计有效的模式分解算法,而对于具有时态函数依赖(TFDs)约束的时态模式来说,由于多时间粒度的使用使成员籍问题的解决变得更加复杂,由此讨论了时态类型的一些特性,并提出了有限决定集的概念,基于求得属性的有限决定集,对每一个元素的左部属性集是单一属性的TFD集给出了一个有效的成员籍算法和相关的正确性证明。  相似文献   

8.
时态类型集的封闭集   总被引:5,自引:0,他引:5  
好的数据库逻辑设计目标是消除数据冗余以及插入和删除异常。对于时态数据库,可以利用具有多时间粒度的时态函数依赖(TFDs)约束对时态数据库进行规范化。要进行有效的数据库设计,需要解决有限属性闭包和成员籍等一些有关TFD的问题。为了方便计算机对时态类型的处理和找到有效的解决TFD的相关问题的算法,该文提出了封闭时态类型集的概念,并且给出了一个求给定TFD集的封闭集的算法。  相似文献   

9.
高校教师的业绩数据对于教师的考核评优、薪资提升、岗位聘任和职称晋升等人事决策具有十分重要的作用。针对其兼具复杂层次特征和多维属性的特点,提出了一种基于圆形嵌套图和平行坐标的VPM(Venn Parallel Coordinates Mixing)混合可视化方法。该方法首先采用基于D3布局算法的圆形嵌套图表示层次结构,而后划分叶子节点的圆周为不同的属性轴,通过布局设计、属性映射、属性点连接及缩放、高亮等用户交互来实现层次结构中多维属性的可视化。将该方法用于教师业绩数据,实现了对学院、研究所、教师各层级结构的可视化,可清晰展示数据项的细节信息。实验结果表明,提出的VPM方法能有效地展示教师的业绩数据,评价结果亦符合实际情况,能帮助系统用户——院校管理者对教师进行更好的管理及业绩考核。  相似文献   

10.
一种多变量决策树的构造与研究   总被引:3,自引:0,他引:3       下载免费PDF全文
单变量决策树算法造成树的规模庞大、规则复杂、不易理解,而多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合构成一个新的属性作为节点。结合粗糙集原理中的知识依赖性度量和信息系统中条件属性集的离散度概念,提出了一种多变量决策树的构造算法(RD)。在UCI上部分数据集的实验结果表明,提出的多变量决策树算法的分类效果与传统的ID3算法以及基于核方法的多变量决策树的分类效果相比,有一定的提高。  相似文献   

11.
粗糙集中的距离度量与离群点检测   总被引:1,自引:0,他引:1  
针对传统的基于距离的离群点检测方法不能有效地处理具有离散型属性数据集的问题,将基于距离的离群点检测方法引入粗糙集理论,利用粗糙集解决离散型属性的处理问题.首先,在粗糙集的框架中提出3种面向离散型属性的距离度量;然后,针对这3种距离度量分别设计出相应的离群点检测算法,用于从包含离散型属性的数据集中检测离群点;最后,通过在2个包含离散型属性的UCI数据集上的实验,验证了这些算法的可行性和有效性.  相似文献   

12.
面向混合属性数据集的改进半监督FCM聚类方法   总被引:1,自引:0,他引:1  
李晓庆  唐昊  司加胜  苗刚中 《自动化学报》2018,44(12):2259-2268
针对混合属性数据集聚类精度低的问题,本文提出一种基于改进距离度量的半监督模糊均值聚类(Fuzzy C-means,FCM)算法.首先,在数据集中针对类别属性进行预处理,并设置相应的相异度阈值;将传统聚类距离度量与改进的Jaccard距离度量结合,确定混合属性数据集的距离度量函数;最后,将所得距离度量函数与传统半监督FCM算法相结合,并在滚动轴承的不同复合故障数据的特征集中进行聚类.实验表明,该算法能在含无序属性的混合属性数据集的聚类中取得更好的聚类效果.  相似文献   

13.
李艳  范斌  郭劼 《计算机应用》2022,42(9):2701-2712
属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系。然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大。为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略。首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法。所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分。在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征。  相似文献   

14.
现有的时态网络可视化方法大多采用等量时间片来可视化网络的演变,不利于时态模式的快速挖掘和发现。为此,根据时态网络固有的特征提出自适应时间片划分方法(Adaptive Time Slice Partition method,ATSP)。在时态网络的两种表示方式(基于事件的表示方式和基于快照的表示方式)的基础上,构建了ATSP的基础模型,同时提出了一种改进模型用来描述事件间隔时间服从长尾分布的时态网络。为了实现时间片的不等量划分,针对探索任务的不同提出了基于时态模式的ATSP规则和基于中心节点的ATSP规则,并提出了实现算法--层次划分算法(Hierarchical Partition algorithm,HP)和增量划分算法(Incremental Partition algorithm,IP)。实验结果表明,ATSP方法比传统的时间片划分方法更能准确地表示网络的时态特征,且该方法应用于可视化时,能有效归纳并展示网络的特征,明显提高了视觉分析的效率。  相似文献   

15.
为融合节点描述信息提升网络表示学习质量,针对社会网络中节点描述属性信息存在的语义信息分散和不完备性问题,提出一种融合节点描述属性的网络表示(NPA-NRL)学习算法。首先,对属性信息进行独热编码,并引入随机扰动的数据集增强策略解决属性信息不完备问题;然后,将属性编码和结构编码拼接作为深度神经网络输入,实现两方面信息的相互补充制约;最后,设计了基于网络同质性的属性相似性度量函数和基于SkipGram模型的结构相似性度量函数,通过联合训练实现融合语义信息挖掘。在GPLUS、OKLAHOMA和UNC三个真实网络数据集上的实验结果表明,和经典的DeepWalk、TADW(Text-Associated DeepWalk)、UPP-SNE(User Profile Preserving Social Network Embedding)和SNE(Social Network Embedding)算法相比,NPA-NRL算法的链路预测AUC(Area Under Curve of ROC)值平均提升2.75%,节点分类F1值平均提升7.10%。  相似文献   

16.
针对混合属性离群点检测问题,提出基于邻域近似精度的混合属性离群点检测方法。首先,定义异构邻域关系度量来表示混合数据之间的近邻性。然后,定义一种特定的邻域近似精度来构建邻域粒离群度。进而,定义基于邻域近似精度的离群因子及提出基于邻域近似精度的离群点检测(Nighborhood approximation accuracy-based outlier detection, NAAOD)。最后,用UCI数据集对NAAOD算法的有效性进行了验证。理论研究和实验结果均表明,NAAOD算法对混合属性离群点检测是有效的。  相似文献   

17.
穿戴式跌倒检测中老年人特征属性过多会造成维数灾难,影响后续跌倒检测精度。针对此问题,首先采用时域分析法提取初始特征向量集,然后用提出的改进核主成分分析算法(IKPCA)对特征向量进行降维,从而获得优质的特征向量集,使得后续的分类具有更好的效果。IKPCA算法首先利用I-RELIEF算法对初始特征向量集进行特征选择,然后计算跌倒特征向量的信息度量和相似度度量,最后根据跌倒特征向量的相似度度量剔除无效的跌倒特征向量。IKPCA算法不但保持核主成分分析算法(KPCA)较好的降维能力,而且扩充了较好的分类能力。利用真实的数据集进行实验,对比分析表明,相比其他算法,IKPCA算法能够得到更优质的特征向量数据集。  相似文献   

18.
李杨    郝志峰    谢光强    袁淦钊 《智能系统学报》2013,8(4):299-304
以多维数据可视化为研究对象,在质量度量模型下,采用数据聚合为基本手段,来提高多维数据可视化的图像质量.在质量度量指标驱动的框架下提出了均分 K-means++数据聚合算法,在传统 K-means算法的基础上,专门以数据可视化为目的对算法进行了改进,使得算法聚合得到的数据既能够较好地保持原数据的大部分特性,又能显著地提高可视化后的图像质量.仿真实验证明,在不同的数据抽象级别DAL下,无论是图像质量指标还是质量度量指标HDM(直方图差值度量)、NNM(最近邻距离度量),算法都表现出了较好的仿真结果.  相似文献   

19.
针对数据维度过高、冗余信息过多导致维度灾难的问题,提出一种基于异同矩阵的高维属性约简算法(ARSDM)。该算法在区分矩阵的基础上加入对同类样本的相似度衡量,形成对所有样本的综合评估。首先,计算样本在每个属性下的距离,并基于这些距离得到同类相似度和异类差异度;其次,建立异同矩阵,形成对整个数据集的评价;最后,进行属性约简,即将异同矩阵的每一列求和,依次选择值最大的特征进行约简,并将相应样本对的行向量置为零向量。实验结果表明,与经典属性约简算法DMG(Discernibility Matrix based on Graph theory)、FFRS(Fitting Fuzzy Rough Sets)以及GBNRS(Granular Ball Neighborhood Rough Sets)相比,在分类回归树(CART)分类器下,ARSDM的平均分类准确率分别提高了1.07、6.48、8.92个百分点;在支持向量机(SVM)分类器下,ARSDM的平均分类准确率分别提高了1.96、11.96、12.39个百分点;运行效率上ARSDM优于GBNRS和FFRS。可见,ARSDM能够有效去除冗余信息...  相似文献   

20.
多聚类中心近邻传播聚类算法(MEAP),在处理任意形状具有流形分布结构的数据时,往往得不到理想的聚类结果。为此,基于流形学习的思想,设计了一种全新的相似性度量,该相似性度量能够扩大位于同一流形中数据点间的相似性,同时缩小处于不同流形上数据点间的相似性,从而使得相似性矩阵能够准确地反映数据集内在的流形分布结构。将该相似性度量与MEAP相结合,提出基于流形结构的多聚类中心近邻传播聚类算法MS-MEAP(Manifold Structure based Multi-Exemplar Affinity Propagation),从而有效地拓展了算法处理任意形状具有流形分布结构数据集的能力,同时提高了算法的运行效率。在人工数据集与USPS手写体数据集上进行了实验,仿真实验结果及算法有效性分析证明,MS-MEAP算法相比于原算法在处理任意形状具有流形分布结构的数据时,具有更好的聚类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号