共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
提出了一种基于MapReduce和上采样的两类非平衡大数据分类方法,该方法分为5步:(1)对于每一个正类样例,用MapReduce寻找其异类最近临;(2)在两个样例点之间的直线上生成若干个正类样例;(3)以新的正类样例子集的大小为基准,将负类样例随机划分为若干子集;(4)用负类样例子集和正类样例子集构造若干个平衡数据子集;(5)用平衡数据子集训练若干个分类器,并对训练好的分类器进行集成。在5个两类非平衡大数据集上与3种相关方法进行了实验比较,实验结果表明本文提出的优于这3种方法。 相似文献
3.
一种改进的K-means聚类算法 总被引:1,自引:0,他引:1
本文提出了一种带离群点数据过滤的K-means改进算法。该算法根据离群点数据特征制定了离群点数据的发现规则,并在原算法中加入了离群点数据的发现和处理步骤。通过对给定的具有普遍意义的数据实验表明,改进后算法能较为稳定的发现数据集中存在的离群点数据,这些离群点数据符合离群点数据特征;同时在剔除这些极少数离群点数据后,显著提高了聚类结果簇的凝聚度,从而有效克服了离群点数据对K-means算法的影响,使聚类效果得以显著提高。 相似文献
4.
模糊支持向量机(fuzzy support vector machine,FSVM)通过为每个样例设置模糊化训练参数,达到抑制离群点及噪声数据对分类器不利影响的目的.提出了基于预分类的FSVM,每个样例的模糊权重通过关联于该样例的预分类面来确定.该方法不仅考虑了各个样例在未来分类中的作用效果,还考虑了分类器对离群点及噪声数据的敏感性.这样确定的模糊权重能使SVM根据离群点及噪声数据的影响情况决定抑制强度,减少或避免无视数据具体特征的盲目抑制.在IDA、UCI等标准数据集上的实验验证了所提方法的合理性和有效性. 相似文献
5.
《遥感技术与应用》2021,(3)
快速准确获取森林结构参数对森林资源调查管理及全球碳汇研究具有重要意义。以祁连山东、中部青海云杉林为研究对象,利用16个无人机激光雷达(LiDAR)点云数据、正射影像数据结合实地样方观测数据,提取样方内青海云杉的单木树高并准确验证树木分割精度;结合实测数据和地形数据,依据统计指标验证提取树高精度并分析原因;基于点云数据提取的各样方树高分析祁连山青海云杉冠层高度在空间上的变化。结果表明:在祁连山山地森林,冠层高度平均值估算精度最高,R~2为0.93,RMSE为1.39 m(P0.05);地形影响基于点云数据的树高提取,坡度较小的青海云杉树高提取效果更好;从东到西,青海云杉平均树高呈下降趋势;随着海拔高度上升,青海云杉的平均树高先上升后下降,这与祁连山东西水热条件差异和不同海拔树木年龄分布有关。 相似文献
6.
7.
快速准确获取森林结构参数对森林资源调查管理及全球碳汇研究具有重要意义。以祁连山东、中部青海云杉林为研究对象,利用16个无人机激光雷达(LiDAR)点云数据、正射影像数据结合实地样方观测数据,提取样方内青海云杉的单木树高并准确验证树木分割精度;结合实测数据和地形数据,依据统计指标验证提取树高精度并分析原因;基于点云数据提取的各样方树高分析祁连山青海云杉冠层高度在空间上的变化。结果表明:在祁连山山地森林,冠层高度平均值估算精度最高,R2为0.93,RMSE为1.39 m(P<0.05);地形影响基于点云数据的树高提取,坡度较小的青海云杉树高提取效果更好;从东到西,青海云杉平均树高呈下降趋势;随着海拔高度上升,青海云杉的平均树高先上升后下降,这与祁连山东西水热条件差异和不同海拔树木年龄分布有关。 相似文献
8.
用于体绘制的可变模板法 总被引:1,自引:0,他引:1
作为投影成象的的一种重要方法,模板法在规则场的体绘制中取得了好的效果,然而,传统模板法要求样点的大小和形状一致,限制了其在曲线结构数据场和非规则数据场体绘制中的应用,因为这类场中样点的大小和形状变化很大。当前非规则场或曲线结构数据场中的体绘制计算复杂、成象速度很慢,严重影响了可视化的效率,本文提出了一种可变模板法,不受样点大小必须一致的限制,使得模板法能在曲线结构数据场和非规则场的体绘制中发挥充分 相似文献
9.
用双层减样法优化大规模SVM垃圾标签检测模型* 总被引:1,自引:1,他引:0
针对支持向量机在训练大规模数据集时出现的速度瓶颈问题,提出一种新的减样方法,称双层减样法。数据减样时,双层减样法从粗、细粒度两个层次削减样本。粗粒度约减时,利用核空间距离聚类法,以簇为单位削减冗余子集。细粒度约减时,以点为单位挑选剩余点集中的支持向量。实验表明,双层减样法能有效的压缩样本数据,同时还能放大数据集的分类特征,提高分类器的分类精度。将此法应用于大规模SVM垃圾标签检测模型的训练集优化上,能明显提高检测模型的训练速度。双层减样法是将“粒度”和“层次”的概念引入减样法中,在约减时适时改变约减幅度。这比传统减样法更具有优势。 相似文献
10.
针对传统样例选择方法压缩大数据集时,存在计算复杂度较高、时间消耗较大的问题,文中提出基于非平稳割点的样例选择方法。依据在区间端点得到凸函数的极值这一基本性质,通过标记非平衡割点度量一个样例为端点的程度,然后选取端点程度较高的样例,从而避免样例之间距离的计算。该方法旨在不影响分类精度的前提下,达到压缩数据集、提高计算效率的目的。实验表明,文中方法对于类别不平衡度较高的数据集压缩效果明显,同时表现出较强的抗噪性。 相似文献
11.
顾景文 《数值计算与计算机应用》1982,(3)
对于给出三维空间中的一组数据点(x_i,y_i,z_i)(i=1,2,…,N),这些数据点是根据一定的物理背景进行实验、测量或计算得到的数据.在用计算机由这些数据点来绘制等值线z=c(c为常数)的时候,都必须经过两个阶段(假定这些数据点属于一个连续的物理模型).首先利用一种数学模型去拟合一张通过这一组数据点的曲面,然后采用某种 相似文献
12.
本文主要研究了基于孤立点分析的防火墙入侵检测系统中核心挖掘算法。对本地机或网络上的原始数据进行预处理形成格式化的数据;然后对这些数据应用数据挖掘算法进行孤立点检测。 相似文献
13.
《计算机辅助设计与图形学学报》2017,(11)
针对现有的曲面重建算法难以兼顾大规模采样数据的重建效率与重建曲面拓扑正确性的问题,提出一种基于局部Delaunay网格剖分的曲面增量重建算法.该算法采用波前扩展的策略,通过波前环的扩张、分裂、重叠面片的消除等步骤,将局部重建过程传播至每个样点的邻近区域,获得插值于采样点集的二维定向流形网格曲面,实现整个采样点集的增量拓扑重建;在曲面局部重建过程中,分别基于局部区域的Cocone算法与二维投影点集的Delaunay网格剖分方法重建曲面的尖锐区域与平坦区域,其中局部区域重建曲面网格的边界的正确性由区域之外的少量辅助样点保护.实验结果表明,文中算法具有较高的重建效率,适用于封闭和非封闭海量点云数据的重建;且在采样密度符合要求的情况下,重建的网格曲面与原表面拓扑同构. 相似文献
14.
针对现有的曲面重建算法难以兼顾大规模采样数据的重建效率与重建曲面拓扑正确性的问题,提出一种基于局部Delaunay网格剖分的曲面增量重建算法.该算法采用波前扩展的策略,通过波前环的扩张、分裂、重叠面片的消除等步骤,将局部重建过程传播至每个样点的邻近区域,获得插值于采样点集的二维定向流形网格曲面,实现整个采样点集的增量拓扑重建;在曲面局部重建过程中,分别基于局部区域的Cocone算法与二维投影点集的Delaunay网格剖分方法重建曲面的尖锐区域与平坦区域,其中局部区域重建曲面网格的边界的正确性由区域之外的少量辅助样点保护.实验结果表明,文中算法具有较高的重建效率,适用于封闭和非封闭海量点云数据的重建;且在采样密度符合要求的情况下,重建的网格曲面与原表面拓扑同构. 相似文献
15.
<正> 一、概述 传感器的输出信号与被测参数之间的特性成为反映其本质的第一手资料,也是传感器检测被测量的基础。 传感器特性曲线的精度在于测量手段与测点的配置。实验采集的数据总是有限的,而实际上需要求出对于这些有限次测量以外的数据,或根据有限次测量的结果作出一条光滑曲线使其通过或尽可能靠近这些点。由实验数据作图,采用描点法, 相似文献
16.
基于点的图形学是近年来的一个研究热点,但由于基于点的模型(点模型)数据往往非常庞大,为便于存储和网络传输,有效地对这些数据进行压缩非常重要.总结了点模型的压缩流程,并给出了点模型压缩算法的分类原则;然后以单分辨率算法和渐进算法为主线,详细介绍了点模型压缩的最新研究进展,分析比较了相应的关键技术;最后对该领域未来的发展提出了一些研究建议. 相似文献
17.
18.
为了有效地多分辨率简化点云模型,首先,采用均匀栅格法建立点云模型的拓扑关系,计算每个数据点的k邻域;然后,通过建立点云模型中数据点的协方差矩阵求得这些点的法向量,并且进行法向重定向,使所有法向量的方向都指向点云模型的外部;最后,通过衡量数据点对Laplace-Beltrami算子特征值频谱的影响,得到与数据点k邻域及其法向量相关的量化该点重要性的度量公式,随后调节控制因子的取值,实现点云模型的多分辨率简化。实验结果表明,该算法具有简化率高、保留点云模型的微小细节特征信息、简化速度快、稳定性强的特点。 相似文献
19.
野外样点数据是土地覆被遥感制图中训练样本和精度检验样本的重要来源.在山区地表覆被野外样点采集过程中,受采样距离以及河流、地形等的阻挡,大量样点难以直接到达,影响了山地地表覆被野外样点的代表性.为了获取高质量的山区地表覆被野外样点,研发一款高精度、远距离、不接触、自动化采样的山地地表覆被信息野外采样系统显得十分必要.以移动式客户端为工作平台,基于Android操作系统和ArcGISAPIforAndroid设计了一套山地地表覆被野外采样系统.该系统提供了单点和双点交会采样两种模式,用户可以根据地表覆被距离选择不同模式自动化获取采样地物的地理坐标、地表覆被类型信息、图像信息和用户定制的其他属性信息.经野外实地验证,该系统可以获取肉眼可辨的不同距离的山地地表覆被样点,提高了地表覆被野外采样效率.获取的可见远距离地表覆被目标的坐标距离误差在30m以内,满足30m尺度土地覆被产品生产对样点定位精度的要求. 相似文献
20.
DSP实时语音存储系统,将数据存储到USB移动存储设备的过程中,存在存储速率快慢不均的现象。采用常用的双缓冲区模式的存储方法,会存在样点丢失的问题。针对上述问题设计一种多缓冲区模式的存储方法。该方法应用于USB实时语音采集、存储系统中,解决了样点丢失的问题,保证了存储数据的准确性和完整性。多缓冲区模式的存储方法对其它高速实时数据采集、存储系统具有借鉴作用。 相似文献