首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
传统的主曲线算法已被广泛应用到很多领域,但在复杂数据的主曲线提取上效果不佳,而有效的融合粒计算与主曲线学习算法是解决该类问题最有效的途径之一。为此,本文提出了基于粒计算的复杂数据多粒度主曲线提取算法。首先,利用基于t最近邻(T-nearest-neighbors, TNN)的谱聚类算法对数据进行粒化,提出拐点估计方法来自动确定粒的个数;然后调用软K段主曲线算法对每个粒进行局部主曲线提取,并提出通过消除假边来优化每个粒的主曲线提取过程;最后采用局部到全局的策略进行多粒度主曲线提取,并对过拟合线段进行优化,最终形成一条能较好描述数据原始分布形态的主曲线。实验结果表明该算法是一种行之有效的多粒度主曲线提取算法。  相似文献   

2.
焦娜 《数据采集与处理》2015,30(5):1070-1077
主曲线是一种基于非线性变换的特征提取方法,它是通过数 据分布“中间”并满足“自相合”的光滑曲线,能较好抽取出数据的结构特征。针对软K段 主曲线算法提取的指纹图像的骨架结构光滑度较差,而且提取的指纹图像骨架经常出现小圈 和短枝的现象,本文在对软K段主曲线算法和指纹图像数据特点分析的基础上,引入了一个 新的评判函数,并提出了改进的软K段主曲线算法,将该算法应用在提取指纹图像骨架上。 实验结果表明,改进的软K段主曲线算法在提取指纹图像骨架的效果和准确率上比原算法都 有明显提高。  相似文献   

3.
要提高脱机手写字符识别的识别率,关键是特征的提取。主曲线是主成分分析的非线性推广,是通过数据分布“中间”并满足“自相合”的光滑曲线。通过对现有主曲线算法分析可知:软K段主曲线算法对提取出分布在弯曲度很大或相交曲线周围的数据的主曲线效果较好。因此本文尝试用谊主曲线算法来提取脱机手写字符的结构特征。实验结果表明,利用该主曲线算法来提取脱机手写字符的结构特征不但是可行的,而且取得较好的实验效果。它为脱机手写字符特征提取的研究提供了一条新途径。  相似文献   

4.
焦娜 《计算机科学》2017,44(9):49-52
车牌识别是智能交通系统的重要组成部分,提高车牌字符识别率的关键在于提取字符的特征。主曲线是主成分分析的非线性推广,它是通过数据分布“中间”并满足“自相合”的光滑曲线。通过对现有主曲线算法的分析可知:软K段主曲线算法对提取分布在弯曲度很大或相交曲线周围的数据的主曲线的效果较好。因此,尝试用该主曲线算法来提取车牌字符的结构特征。实验结果表明,利用该主曲线算法来提取车牌识别的结构特征能够取得较好的实验效果。所提方法为提取 车牌字符特征的研究提供了一条新途径。  相似文献   

5.
基于K段主曲线算法的手绘形状识别   总被引:1,自引:0,他引:1  
屠红蕾  黄静 《计算机应用》2009,29(2):456-458
提出了利用主曲线算法对人机交互中广泛使用的脱机手绘形状的识别。利用改进K段主曲线方法对学习样本点提取主干线,然后对被测试样本计算到主曲线的投影点的距离的均方差,识别是基于对目标主曲线的距离均方差最小。实验证明该算法也是比较有效的一种形状识别算法。  相似文献   

6.
大数据挖掘时代,数据丰富与知识贫乏之间的矛盾日趋突出.粒计算是解决大规模、复杂问题的新范式,其核心任务是粒化.粗糙集是经典粒计算模型之一,在数据挖掘领域已广泛应用.遗憾的是基于不可区分关系的粒化条件很严格,造成粗糙集在粒化定量数据时会失效.因此,本文首先从一维属性的区间划分出发,定义多维属性组合生成的超区间粒,并基于超区间粒提出新颖的粗糙集模型有效地将定量数据和定性数据统一到一个框架;其次,从决策属性的视角考虑条件属性之间的相关性提出基于密度峰值聚类的超区间粒化算法,算法输出的超区间粒不仅是论域的划分,且每个划分块都是同质信息粒;最后,受近邻分类算法的启发,融合多数投票分类机制和近邻分类准则基于超区间粒提出自适应近邻分类模型(IGANN),并在UCI数据集上与8个经典分类模型进行实验对比,4个指标下的对比结果均表明IGANN模型具有更强的稳定性和更高的鲁棒性.  相似文献   

7.
为了提高局部异常检测算法的检测效率以及检测的准确度,提出基于Hadoop的分布式局部异常检测算法MRDINFLO。该算法在INFLuenced Outlierness(INFLO)算法的基础上,引入了MapReduce计算框架,将数据点的k近邻、k距离、反向k近邻、局部离群因子的计算并行化处理,从而提高了检测效率。算法在计算各个数据对象之间的距离时采用加权距离,通过引入信息熵来判断离群属性,给离群属性以较大的权重,从而提高了异常检测的准确度。实验在3节点Hadoop集群上进行,输入数据为KDD-CUP 99。当输入数据集大小为500万条时,所提出的MR-DINFLO算法检测准确度为0. 94,检测时间为2 589 s。实验结果表明该算法具有高效可行性。  相似文献   

8.
模式特征的提取与选择是提高手写体字符识别率的关键因素。主曲线是主成分分析的非线性推广,它是通过数据分布“中间”并满足“自相合”的光滑曲线,能够很好地描述数据分布的结构特征。利用软K段主曲线算法提取训练数据的特征,在分析手写体字符结构特点的基础上,选出手写体字符识别所使用的粗分类与细分类特征,利用这些分类特征对手写字符进行识别。该方法在CEDAR手写体数字和字符数据库上的实验表明:选取的分类特征能够有效区分相似的手写体字符,提高手写字符的识别率,为脱机手写字符识别研究提供了一种新的方法。  相似文献   

9.
闫林  宋金朋 《计算机科学》2014,41(3):258-262
通过对数据集的不同划分,得到了基于数据集的粒化树。结合关联元素的信息,建立了基于不同数据集粒化树之间的关联关系,确定了两种粒化树中的两条关联链,促成了它们经关联元素的相互联系。由于每一关联链中的粒从粗到细逐步变化,使得关联元素与粒度的逐步细化密切相关,这是粒计算数据处理模式的体现。相关的结论为人才供求问题的算法描述提供了数学模型,并通过实例予以展示。  相似文献   

10.
基于粒计算的决策树并行算法的应用   总被引:1,自引:0,他引:1  
针对传统的决策树分类算法不能有效解决海量数据挖掘的问题,结合并行处理模型M apReduce ,研究基于粒计算的ID3决策树分类的并行化处理方法。基于信息粒的二进制表示来构建属性的二进制信息粒向量,给出数据集的二进制信息粒关联矩阵表示;基于二进制信息粒关联矩阵,提出属性的信息增益的计算方法,设计基于M apReduce的粒计算决策树并行分类算法。通过使用标准数据集和实际气象领域的雷电真实数据集进行测试,验证了该算法的有效性。  相似文献   

11.
处理非平衡数据的粒度SVM学习算法   总被引:3,自引:1,他引:2       下载免费PDF全文
针对支持向量机对于非平衡数据不能进行有效分类的问题,提出一种粒度支持向量机学习算法。根据粒度计算思想对多数类样本进行粒划分并从中获取信息粒,以使数据趋于平衡。通过这些信息粒来寻找局部支持向量,并在这些局部支持向量和少数类样本上进行有效学习,使SVM在非平衡数据集上获得令人满意的泛化能力。  相似文献   

12.
冯晓龙  高静 《计算机仿真》2020,37(2):231-236
针对生物信息分析中基因短序列比对任务计算耗时长的问题,采用Spark平台、RDD数据集以及分布式文件系统HDFS设计了一种分布式计算模型。采用分而治之的策略将庞大的计算任务分割为多个互不重叠的小任务在分布式集群上并行执行。通过基于位置偏移量等分的数据分区算法实现数据的分发;通过将基因短序列封装入RDD数据集的方法实现了短序列的逐条处理;通过将基因比对算法传入RDD的Map函数的方法实现了基因序列的比对。计算模型的实现使得串行比对算法在分布式集群上可扩展,并显著降低了计算耗时,计算结果可与后续的生物信息分析工作相兼容。实验结果证明计算模型具有较好的稳定性和可扩展性,在Spark集群上取得了优秀的加速比。  相似文献   

13.
为了提高海量高维小样本数据的聚类准确率和效率,提出一种基于递归文化基因和云计算分布式计算的高维大数据聚类系统。基于Spark分布式计算平台设计迭代的聚类系统,分为基于递归文化基因的特征归简处理和基于密度的聚类处理。前者将基因微阵列的聚类准确率结果作为主目标,特征数量作为次目标,递归地化简特征空间;后者基于犹豫模糊集理论设计基于密度的聚类算法,采用加权的犹豫模糊集相关系数度量数据之间的距离。基于人工合成数据集和临床实验数据集均进行仿真实验,结果表明该算法在聚类准确率、扩展性和时间效率上均实现了较好的效果。  相似文献   

14.
王真  曹立明 《计算机科学》2007,34(2):227-229
主曲线是一种用于数据压缩和特征提取的有效方法,是对主成分分析的非线性推广。由于主曲线与主成分的密切联系,主曲线生成算法通常以第二主成分线做初始值。然而实验发现第一主成分未必是算法初始化的最佳选择。本文将以HS算法和多边形算法为例,就初始值的选取对生成主曲线的影响做出分析并通过实验得出结论:HS算法以原点作初值效果较好,多边彤算法应根据数据点集的不同结构选择合适的初值。  相似文献   

15.
16.
Scientific datasets of large volumes generated by next-generation computational sciences need to be transferred and processed for remote visualization and distributed collaboration among a geographically dispersed team of scientists. Parallel visualization using high-performance computing facilities is a typical approach to processing such increasingly large datasets. We propose an optimized image compositing scheme with linear pipeline and adaptive transport to support efficient image delivery to a remote client. The proposed scheme arranges an arbitrary number of parallel processors within a cluster in a linear order and divides the image into a carefully selected number of segments, which flow through the linear in-cluster pipeline and wide-area networks to the remote client consecutively. We analytically determine the segment size that minimizes the final image display time and derive the conditions where the proposed image compositing and delivery scheme outperforms the traditional schemes including the binary swap algorithm. In order to match the transport throughput for image delivery over wide-area networks to the pipelining rate for image compositing within the cluster, we design a class of transport protocols using stochastic approximation methods that are able to stabilize the data flow at a target rate. The experimental results from remote visualization of large-scale scientific datasets justify the correctness of our theoretical analysis and illustrate the superior performances of the proposed method.  相似文献   

17.
In this paper, a covariance-free iterative algorithm is developed to achieve distributed principal component analysis on high-dimensional data sets that are vertically partitioned. We have proved that our iterative algorithm converges monotonously with an exponential rate. Different from existing techniques that aim at approximating the global PCA, our covariance-free iterative distributed PCA (CIDPCA) algorithm can estimate the principal components directly without computing the sample covariance matrix. Therefore a significant reduction on transmission costs can be achieved. Furthermore, in comparison to existing distributed PCA techniques, CIDPCA can provide more accurate estimations of the principal components and classification results. We have demonstrated the superior performance of CIDPCA through the studies of multiple real-world data sets.  相似文献   

18.
卫星遥感图像并行几何校正算法研究   总被引:7,自引:0,他引:7  
几何校正是遥感图像处理过程中的重要环节,具有计算量大、耗时长的特点,导致遥感图像处理的效率低下.该文提出一种分布存储环境下的并行几何校正算法,每个处理器通过计算本地输入子图像在目标图像中的范围,确定其需要进行重采样计算的区域,使计算过程中所需的数据均为本地数据,很好地解决了数据局部性问题.文章利用首尾相连的闭线段近似表示理想的输出图像块边界这一思想,详细讨论了局部输出区域的计算方法,并采用一种新的存储结构用于保存校正后的输出图像块信息.在机群系统上对算法进行实现,结果表明该算法具有良好的并行性能.  相似文献   

19.
针对工业、信息等领域出现的基于较大规模、非平稳变化复杂数据的回归问题,已有算法在计算成本及拟合效果方面无法同时满足要求.因此,文中提出基于多尺度高斯核的分布式正则化回归学习算法.算法中的假设空间为多个具有不同尺度的高斯核生成的再生核Hilbert空间的和空间.考虑到整个数据集划分的不同互斥子集波动程度不同,建立不同组合系数核函数逼近模型.利用最小二乘正则化方法同时独立求解各逼近模型.最后,通过对所得的各个局部估计子加权合成得到整体逼近模型.在2个模拟数据集和4个真实数据集上的实验表明,文中算法既能保证较优的拟合性能,又能降低运行时间.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号