共查询到20条相似文献,搜索用时 140 毫秒
1.
针对高维输入数据维数较大时可能存在奇异值问题,同时为提高算法的运算效率以及算法的鲁棒性,提出了一种基于L1范数的分块二维局部保持投影算法B2DLPP-L1。传统的局部保持投影算法为避免出现奇异值问题,首先运用主成分分析算法将高维数据投影到子空间中,然而这种方式将会造成高维数据中部分有效信息的流失,B2DLPP-L1算法选择将二维数据直接作为输入数据,避免运用向量形式的输入数据时可能造成的数据流失;同时该算法对二维输入数据进行分块处理,将分块后的数据块作为新的输入数据,之后运用基于L1范数的二维局部保持投影算法对其进行降维。理论上,B2DLPP-L1算法能够较好地对数据进行降维,不仅能够保持高维数据中的有效信息,降低计算复杂程度,提高算法的运行效率,同时还能够克服存在外点情况下分类准确率较低问题,提高算法的鲁棒性。通过选择不同的人脸数据库进行实验,实验结果表明,在存在外点的情况下,运用最近邻分类器时能够取得更高的分类准确率,同时所需的分类时间有所减少。 相似文献
2.
基于衰减滑动窗口数据流聚类算法研究 总被引:2,自引:0,他引:2
数据流具有数据流量大、流量连续且快速、难以存储和恢复等特性,其挖掘质量和效率是检验挖掘算法的重要标准.传统的数据流聚类挖掘算法是基于界标窗口、滑动窗口和衰减窗口模型,其算法的聚类质量较差,时间复杂度高等不足,就此类问题,研究一种滑动衰减窗口的数据流聚类算法,并对算法进行了设计与实现,有效的改善传统数据流算法聚类质量和时间效率的问题.仿真实验结果表明了该算法的有效性,达到了较满意的效果. 相似文献
3.
块级连续数据保护技术能够提供任意时刻的数据恢复,构建可靠数据存储环境,已成为现代存储系统重要的数据保护手段.数据的高可用性对数据恢复效率提出了更高的要求,针对传统块级连续数据保护机制数据恢复效率低的问题,结合数据块级写请求的集中分布特性和连续分布特性,提出了一种块级连续数据保护数据恢复机制——RM-LCDF. RM-LCDF采用去除无效写请求、多缓冲和逻辑块地址排序3种优化策略,对数据恢复过程进行优化.形式化分析及实验结果表明,RM-LCDF能够大幅度减少恢复过程中的I/O数据量,提高I/O并发度及写I/O吞吐率,进而有效提高恢复效率. 相似文献
4.
5.
闪存因具有速度快、体积小等优点而广泛应用于数据存储领域,为提高NAND闪存的垃圾回收效率、延长闪存使用寿命,提出一种基于数据更新间隔的垃圾回收算法UIGC。计算闪存中空闲页的分散度,将其作为垃圾回收触发条件。从垃圾回收效率和磨损均衡效果2个方面出发,综合考虑块中无效页年龄累计和以及块中有效页比例,使用动态回收块选择和静态回收块选择相结合的策略来选择目标回收块,根据回收块中有效页数据更新间隔判断有效页热度,同时提出数据更新稳定性的概念来划分有效页的数据更新状态,将具有不同热度和更新状态的有效页数据分别存储在不同的空闲块中,从而提高块中数据的同步更新概率。实验结果表明,UIGC算法相较于CAT、FaGC等现有垃圾回收算法具有更优的垃圾回收效率和磨损均衡效果,并能有效延长闪存使用寿命。 相似文献
6.
为了提高数据挖掘中异常检测算法在数据量增大时的准确度、灵敏度和执行效率,本文提出了一种基于MapReduce框架和Local Outlier Factor (LOF)算法的并行异常检测算法(MR-DLOF)。首先,将存放在Hadoop分布式文件系统(HDFS)上的数据集逻辑地切分为多个数据块。然后,利用MapReduce原理将各个数据块中的数据并行处理,使得每个数据点的k-邻近距离和LOF值的计算仅在单个块中执行,从而提高了算法的执行效率;同时重新定义了k-邻近距离的概念,避免了数据集中存在大于或等于k个重复点而导致局部密度为无穷大的情况。最后,将LOF值较大的数据点合并重新计算其LOF值,从而提高算法准确度和灵敏度。通过真实数据集验证了MR-DLOF算法的有效性、高效性和可扩展性。 相似文献
7.
8.
9.
10.
11.
为了解决脑白质纤维交叉分叉问题,在传统算法的启发下,提出一种基于相邻体素选择的盘状张量分解算法。首先,选择合适的起点进行非分叉纤维的追踪,建立拟合函数数据集,得到拟合函数;其次,在纤维追踪出现交叉分叉问题时,建立该交叉分叉点及周围区域体素所对应的棋盘图;然后,计算以交叉点为中心的相邻张量的夹角,结合夹角的大小并利用得到的拟合函数进行纤维整体走行方向的估计,实现盘状张量的分解。算法既保证了局部信息的合理适用,又考虑了整体信息的影响,能够更加精确完整地跟踪纤维路径,解决纤维交叉分叉问题。与传统方法相比,本文算法可以更有效解决纤维分叉及交叉处的跟踪问题,从而使得到的纤维路径更加真实。 相似文献
12.
Shapes with complex geometric and topological features such as tunnels, neighboring sheets, and cavities are susceptible to undersampling and continue to challenge existing reconstruction techniques. In this work we introduce a new measure for point clouds to determine the likely interior and exterior regions of an object. Specifically, we adapt the concept of parity to point clouds with missing data and introduce the parity map, a global measure of parity over the volume. We first examine how parity changes over the volume with respect to missing data and develop a method for extracting topologically correct interior and exterior crusts for estimating a signed distance field and performing surface reconstruction. We evaluate our approach on real scan data representing complex shapes with missing data. Our parity measure is not only able to identify highly confident interior and exterior regions but also localizes regions of missing data. Our reconstruction results are compared to existing methods and we show that our method faithfully captures the topology and geometry of complex shapes in the presence of missing data. 相似文献
13.
针对激光扫描仪所得点云散乱分层的特点,提出一种有序化的精简方法。首先基
于已知标记点建立三维R-tree 和八叉树集成的空间索引,快速准确地获取局部点云数据,保证
良好的数据检索效率。然后根据局部点云数据的参考平面法向量信息,选取工件坐标系中的一
个坐标轴作为参数化的方向,对局部点云数据进行参数化并拟合二次曲面。最后对R-tree 叶节
点内的二次曲面进行有序化采样,使散乱分层的点云变为单层,得到整个型面的有序参考点集。
应用实例表明,该方法适用于大规模的、具有复杂几何特征且存在一定程度散乱分层的点云,
可以有效地提高数据点的整体精确度,且不会丢失点云的细节特征,具有较强的实用性。 相似文献
14.
针对现有聚集数据调度近似算法具有较高延时上界的问题,提出一种改进的聚集数据调度近似算法。建立一棵根在中心结点的广度优先搜索树,分层构造一个最大独立集(MIS),使MIS中相邻的2个结点相距两跳。将MIS中的结点连接起来,形成一棵根在中心结点的数据聚集调度树,使结点按数据聚集调度树进行分层数据调度。在数据聚集调度树的构造过程中,对于任意支配点,以最小的结点连接其相距两跳的支配点。对于2个相邻支配点的公共邻居支配点,通过在距中心点最近的支配点加入数据聚集树,使其在数据调度过程中将数据发送给距中心点最近的支配点,从而降低数据的聚集延时。实验结果表明,与SAS算法、Guo’s算法和IAS算法相比,该算法的数据聚集延时更低,其延时上界为14R+△?10。 相似文献
15.
16.
分布式存储系统作为数据存储的载体,广泛应用于大数据领域.纠删码存储方式相对副本方式,既具有较高的空间利用效率,又能保证数据存储的可靠性,因此被越来多的应用于存储系统当中.在EB级大规模纠删码分布式存储系统中,元数据管理成本较大,位置信息等元数据查询效率影响了I O时延和吞吐量.基于位置信息记录的有中心数据放置算法需要频繁访问元数据服务器,导致性能优化受限,基于Hash映射的无中心数据放置算法越来越多地得到应用.但面向纠删码的无中心放置算法,在节点变更和数据恢复过程中,存在位置变更困难、迁移数据量大、数据恢复和迁移并发度低等问题.提出了一种基于条带的一致性Hash数据放置算法(consistent Hash data placement algorithm based on stripe,SCHash),SCHash以条带为单位放置数据,通过把数据块到节点的映射转化为条带到节点组的映射过程,减少节点变动过程中的数据迁移量,从而在恢复过程中降低了变动数据的比例,加速了恢复带宽.并基于SCHash算法设计了一种基于条带的并发I O调度恢复策略,通过避免选取同一节点的数据块进行I O操作,提升了I O并行度,通过调度恢复I O和迁移I O的执行顺序,减少了数据恢复的执行时间.相比APHash数据放置算法,SCHash在数据恢复过程中,减少了46.71%~85.28%数据的迁移.在条带内重建时,恢复带宽提升了48.16%,在条带外节点重建时,恢复带宽提升了138.44%. 相似文献
17.
18.
随着激光扫描测量技术的发展,其数据测量精度的逐渐增高使得获取的几何模型表面点云数据的细节信息越丰富,能更准确的反应物体几何表面特征,但如此海量的点云数据同时也带来对应的技术挑战,海量的点云数据在计算机文件存储、数据后期进一步处理以及软件可视化方面都不方便且效率低下.本文中的算法首先采用栅格法对点云进行空间划分及领域关系的建立,其次利用局部表面拟合的方法估算点云法向量,然后利用点云K领域法的向量求解坐标点的显著性值,最后根据显著性的值构建点云八叉树.该算法实现了对点云显著性特征的提取和对点云数据量的进一步简化,它不仅保留了对点云细节特征保持方面的优势,而且在时间效率上得到了提高. 相似文献
19.