首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 468 毫秒
1.
针对服务器中存储的大量重复和相似数据造成的空间浪费问题,改进的布隆过滤器(Bloom Filter)算法通过增加位数组并根据位数组的重复命中次数所计算的权重来动态优化重复数据的副本数,然后在Hadoop分布式集群下对改进的算法进行并行实现,以进一步提高作业处理效率。实验结果表明,与传统网页去重算法相比,改进的Bloom Filter算法的并行实现不仅提高了作业的处理效率,而且通过基于位数组下动态重复次数对副本数的优化,在一定程度上节省了服务器的存储空间。  相似文献   

2.
一种改进的相似重复记录检测算法   总被引:1,自引:0,他引:1  
数据仓库中相似重复记录的清洗对于提高数据质量有着重要意义,传统的判重算法有SNM算法、MPN算法及KNN算法等。针对MPN算法判重精度和时间效率不高等缺陷,提出一种改进的MPN算法。根据记录属性的重要性分别设定属性权值,将属性切分为原子,进一步计算原子的权值,通过判定属性相似度进而判定记录相似度,提高查准率和查全率。采用均分大数据集为若干数据子集,并行采用MPN算法进行判重,提高判重时间效率。理论和实验分析表明该方法提高了相似重复记录检测的准确率和时间效率。  相似文献   

3.
一种改进的多单元粒子滤波算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对粒子滤波重采样时运算量大的问题,提出一种改进的多单元粒子滤波算法,该算法在多单元粒子滤波的理论基础上,通过加入数据采样步骤,对多个单元的粒子数据进行分组,对其采样选取各组数据的最大值,有效减少系统重采样时的粒子数,提高系统运算效率。实验结果表明:在相同的条件下,相对于多单元粒子滤波,该算法运行时间减少10倍,精度提高20倍,能够满足实时应用要求。  相似文献   

4.
针对KNN算法在大数据离群点检测领域中难以处理高维数据和时间复杂度过高的这2个缺点,提出一种基于AOR(属性重叠率)的分类方法,并对KNN算法进行改进。首先对数据进行基于AOR的降维处理,使得数据可处理维度大大增加,然后对传统的KNN算法进行剪枝改进,减少了大量的无效计算。实验结果表明,本文算法对维度高、容量大的大数据样本在运行效率、准确度等方面有较大的提升。  相似文献   

5.
异常数据检测一直是无线传感器网络安全的重要防护手段.针对现有方案计算复杂度高和检测精度低等问题,提出一种离散二进制粒子群优化孤立森林算法(BPSO-iForest).依据选择性集成思想,利用离散二进制粒子群算法改进由孤立森林算法生成的初始森林,选取初始森林中精度高、差异性大的隔离树,构建最优孤立森林,提升异常数据的检测精度和算法的执行效率.在无线传感器网络数据集上,与传统孤立森林、随机森林算法及其改进算法进行对比实验,结果表明本算法的检测精度和执行效率有明显的提升.  相似文献   

6.
针对传统Apriori算法挖掘警情数据的缺点,提出一种改进的Apriori算法。该算法首先在关联规则发现阶段引入权值参数,设计支持度阈值函数,以挖掘不常发生的重大案情发生规律;然后提出一种压缩矩阵优化算法,将数据压缩存储在只有0或1的矩阵中,并用2个数组来记录矩阵中每一行及每一列1的总数,可多次压缩矩阵,提升挖掘效率;最后将改进的算法用于实际的警情数据挖掘分析,给出关联规则挖掘结果。实验表明,改进算法不仅执行效率较传统算法有所提升,且针对警情数据的挖掘结果准确性也有所提高。  相似文献   

7.
SLAM是移动机器人在未知环境下实现自主导航的关键技术,为解决传统RBPF-SLAM算法建图效果差、计算效率低的不足,基于分层控制的思想,利用kobuki底盘和RPLIDAR A2雷达搭建了机器人导航系统,提出一种优化的Rao-Blackwellized粒子滤波的SLAM方法,粒子采样时纳入高精度的激光数据以弥补里程计数据的不足,优化建议分布函数,对相邻扫描帧进行迭代最近点匹配,增加自适应重采样步骤,并进行了现场建图实验.对比定位误差和运行效率,改进方法要优于传统方法,表明改进方法能有效解决上述问题.  相似文献   

8.
基于改进ICP算法的点云自动配准技术   总被引:2,自引:0,他引:2  
在零件的型面检测过程中,通常有数据采集、曲面重构、曲面配准和误差求取几个步骤。其中,曲面之间的配准是检测中关键的一环。针对传统的经典ICP(Iterative Closest Point)算法在配准过程中受噪声干扰大、鲁棒性差的缺点,在应用点云主方向贴合的粗略配准基础上,以经典的ICP算法为基础,提出了点云数据的欧氏距离阈值去噪和点云的方向矢量夹角阈值两种方法改进ICP算法,并应用改进算法作为点云之间的精确配准算法。对于经过初始配准的点云数据使用欧氏距离阈值法剔除点云间点对的噪声,并经点云各点间的方向矢量夹角阈值进行对应点采样,提高了传统ICP算法的效率和精度。经飞机和汽车零件点云配准实验验证,本算法的配准误差在±1μm内。算法具有设计简洁,响应快速的特点,有实际工作意义。  相似文献   

9.
针对三维激光扫描仪采集到的点云数据中离群点不易区分和去噪难度大的问题,提出了一种改进的C均值算法。通过分析三维点云数据特征,在传统C均值算法中引入模糊聚类权重因子,降低类内距离和拉大类间距离,有效增强了离群点特征以降低识别难度。进而将识别出的噪声分类别处理,利用改进的C均值算法去除大尺度噪声,构造双边滤波算法去除小尺度噪声数据。与密度聚类算法、正交整体最小二乘平面拟合和基于特征选择的双边滤波点云去噪等算法相比,去噪准确度分别提升了7.3%、6.5%和6.0%,实验结果表明该算法可以有效去除大尺度噪声并能较好地保留有效数据。  相似文献   

10.
对大量复杂数据的分类是处理大数据必须要解决的问题,SVM算法和朴素贝叶斯分类算法是其中性能优秀的算法。然而它们的缺点使得分类效果受到了影响,而且传统的数据挖掘分类算法也无法满足对于海量数据的处理。针对这些问题,这里对传统的朴素贝叶斯算法进行了分析和改进,提出了SVM_WNB分类算法,并且在Hadoop云平台上对算法实现并行化处理,使其能够对大数据进行处理。最后利用实验验证,改进后的算法在准确性和效率等方面有明显地提升。可以得出结论,在对大数据的分类上可以应用该算法,并且将会起到显著的效果。  相似文献   

11.
针对在数据服务中舆情去重不可避免且缺乏理论指导的问题,通过研究SimHash、MinHash、Jaccard、Cosine Similarty经典去重算法,以及常见的分词和特征选择算法,以寻求表现优异的算法搭配,并对传统Jaccard和SimHash进行了改进分别产生新算法:基于短文章的Jaccard和基于Cosine Distance的SimHash.针对比较对象众多实验效率低下的问题,提出了先纵向比较筛选出优势算法,然后横向比较获得最佳搭配,最后综合比较的策略,并结合3000舆情样本实验证明:改进的SimHash比传统的SimHash具有更高的精度和召回率;改进的Jaccard较传统Jaccard,召回率提高了17%,效率提高了50%;MinHash+结巴全模式分词和Jaccard+IKAnalyzer智能分词在保持精度高于96%的条件下,都具有75%以上的高召回率,且稳定性很好.其中MinHash去重效果略低于Jaccard,但特征比较时间较短,综合表现最好.  相似文献   

12.
传统Dijkstra算法在搜索最短路径时需要逐一遍历网络图中所有顶点,计算量大,占用存储空间大,搜索效率很低。因此,针对交通网络的空间特性和传统算法的不足,改进存储结构,采用“方向优先+对向搜索”相结合的搜索方法,以减少存储空间,缩小搜索范围,从而加快搜索速度,提高算法的搜索效率。实验数据表明:与传统算法相比,改进的算法能够更有效地搜索交通网络中的最短路径,具有更好的实用价值。  相似文献   

13.
针对传统数据分类属性模型中存在的较为复杂且大数据分类效率低等问题,基于云计算环境,提出利用深度属性加权贝叶斯(deep attribute weighting Bayesian,AWB)算法结合改进差别信息树(differential information tree,DIT)的大数据高效分类方法.利用AWB算法构建大数据训练集的模糊知识库,提高大数据分类精度;采用改进DIT进行模糊粗糙集属性约简,以并行方式利用映射函数对信息进行分区,将洗牌算法融入模糊分类器的设计中,提高大数据分类效率;利用CloudSim仿真器在大型网络数据集对所提方法的性能进行实验论证.实验结果表明,所提方法提高了分类准确度,降低了计算时间,提高了计算效率.  相似文献   

14.
传统数据挖掘关联规则Apriori算法直接移植到云计算平台,数据挖掘效率虽然有了数量级的提升,但由于需要频繁地扫描事务数据库,增加了系统I/O、内存和通信的开销。提出一种基于矩阵的并行关联规则算法Apriori_MMR,该算法结合了数据划分的思想进行并行化改进,简化了生成候选项的连接步骤,仅需对事务数据库扫描两次,同时在计算过程中还能对事务进行压缩从而进一步提高了算法的性能。通过两种算法在不同数据规模下算法性能对比分析实验和两种算法在相同数据集不同节点数对比实验,共同验证了Apriori_MMR的运算效率至少要比Apriori_MR高出两倍左右,且设置的支持度阈值越小,效果愈明显。  相似文献   

15.
模糊C-均值(FCM)聚类算法的实现   总被引:11,自引:0,他引:11  
传统的FCM算法能够将靠近边界的具有固有形状的两个簇合并成为一个大的簇.然而,对于一些稍微复杂的数据,如果没有其它的像去除小簇之类的机制的话,FCM算法很难将非常接近的类聚类到一起.给出的聚类算法是在传统FCM算法的循环之后添加了去除掉空簇的步骤,解决了上述很难将非常接近的类聚到一个簇中的问题.另外,为便于选出最优结果,在递归之后又添加了计算聚类有效性的步骤.最后用Java实现了该算法并在数据集上进行了实验,证实了改进方法的有效性.  相似文献   

16.
《计算机工程》2017,(2):85-91
传统数据去重备份系统在大数据应用场景下存在备份存储空间过大和数据吞吐量不足等缺点。为此,基于数据路由设计一种分布式备份数据去重系统。该系统以数据片为去重粒度,具有数据路由和数据预取2个功能。数据路由使用布隆过滤器对需要处理的数据片进行路由查询,数据预取则使用平均取样和基于Jaccard距离的近邻取样方案。通过数据路由分配数据片到相应处理节点进行处理,平均取样得到的数据片哈希码为数据路由提供路由信息,近邻取样得到的数据片哈希码用于系统首次数据去重。实验结果表明,该系统在保证数据去重率的同时,相对全节点查询和定点路由的数据片路由方式数据吞吐量提升明显。  相似文献   

17.
同时定位与地图创建(the simultaneous localization and mapping,SLAM)是机器人领域的难点问题,目前广泛采用Rao-Blackwellized Particle Filters (RBPF)算法解决该问题.在传统的RBPF算法实现中构建的高误差建议分布会采样计算大量粒子来拟合目标分布,频繁的重采样步骤导致粒子逐渐耗散,浪费大量计算资源.在本文中通过把运动模型信息与观测信息相结合优化建议分布,减少采样粒子数量,引入自适应重采样方法减少重采样步骤.在算法的实现时使用树形数据结构存储环境地图,实验结果表明,该改进算法可以显著计算效率,减小存储消耗,构建地图更为精确.  相似文献   

18.
两阶段抽样算法从海量数据集中抽取样本数据用于数据挖掘,当数据集规模过大时算法效率偏低,当数据集规模过大且为稀疏数据集时抽样精度偏低。本文改进了传统两阶段抽样算法,提出新的抽样算法EAFAST,可自适应地调节算法参数,而且能充分利用历史信息进行启发式搜索。实验证明,EAFAST算法可同时提高算法效率和抽样精度,弥补了传统算法的不足。  相似文献   

19.
对传统堆排序算法进行分析并做出改进。利用堆的性质降低堆排序过程中的数据比较次数,从而在不提高空间复杂度的前提下改进了堆排序算法的效率。通过理论分析得到改进算法在堆重建过程中的数据比较次数是传统堆排序算法的一半,即改进算法的时间复杂度的主项系数是传统算法的1/2。同时,实验结果表明,改进算法的效率比传统算法提高了20%左右。  相似文献   

20.
高效的并行有限差分Stencil 算法对于求解大型线性方程组是十分重要的.针对并行有限差分Stencil 算法中数据局部性差、同步和通信开销大的问题.首先改进传统有限差分Stencil 算法,提出了多层对称遍历有限差分Stencil 算法.然后给出了以迭代空间条块序作为执行序的串行算法,通过沿时间轴对迭代空间进行时滞划分,在不改变迭代算法性质的同时,对迭代空间条块内部多次迭代计算,提高算法的数据局部性.最后提出一种基于迭代空间条块的并行算法,该算法利用改进的多面体模型对迭代空间网格划分,并通过网格条块重排序减少了Cache 缺失率、通信启动和同步次数.理论分析和实验结果表明,该并行模型比传统的区域分解方法和红黑排序并行算法具有更好的数据局部性,并行效率和可扩展性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号