首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 71 毫秒
1.
异构数据库集成中产生了相似重复记录,但数量是有限的,采用传统的SNM算法进行检测,需要在窗口内对所有记录进行比对,效率不高。针对这一缺陷,提出一种基于长度过滤和有效权值的SNM改进算法,在窗口内根据两条记录的长度比例首先将不可能构成相似重复记录的数据排除在外,减少了记录比较的次数,提高了检测效率;进一步通过设置属性有效性因子和权重比例计算有效权值,利用有效权值进行检测,提高了查全率和查准率。实验证明改进算法在各种性能上均优于SNM算法。  相似文献   

2.
数据仓库中的问题数据对数据质量有较大的影响,为了查找和去除这些问题数据,首要的工作是处理相似重复数据,目前针对重复数据清除应用最多的算法是基本邻近排序算法(SNM)。通过分析SNM算法的缺陷,提出了一种改进的SNM算法——ISNM。采用属性区分法计算属性权值,解决了人为主观赋予权值导致的问题;使用字段过滤算法计算2条记录的相似度,减少了窗口内记录属性的比对次数,加快了算法的检测速度;使用可变窗口代替固定大小的窗口,防止记录漏配并减少无用的记录比对。实验结果表明,改进后的ISNM算法在查全率、查准率和运行时间开销上有明显的优势。  相似文献   

3.
4.
基于伸缩窗口和等级调整的SNM改进方法   总被引:1,自引:0,他引:1  
对基本邻近排序算法(basic sorted-neighborhood method, SNM)进行分析, 指出其不足, 提出了SNM算法的一种改进方法。采用变步长伸缩窗口, 动态改变检测窗口大小, 避免漏配问题, 并减少不必要的比较。采用动态调整等级法, 根据记录相似度调整字段等级, 并通过等级法将字段等级转换为权重, 解决了人为赋予固定权重主观性强、不准确的问题。通过对实际系统中的数据进行测试, 验证了方法的有效性和优越性。同时, 这两种方法适用于大多数基于排序—合并的相似重复记录检测方法, 提高了相应方法的效率和准确度。  相似文献   

5.
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升.  相似文献   

6.
对基于MPN数据清洗算法的改进   总被引:2,自引:0,他引:2  
相似重复记录的清除是数据清洗领域中的一个很重要的方面,它的目的是清除冗余的数据.介绍了该问题的流行算法-多趟近邻排序算法MPN(Multi-Pass Sorted Neighborhood),该算法能较好地对相似重复记录进行清除,但也有其不足:一是在识别中窗口大小固定,窗口的大小选取对结果影响很大.二是采用传递闭包,容易引起误识别.提出了基于MPN算法的一种改进算法,试验结果证明改进算法在记忆率和准确率上优于MPN算法.  相似文献   

7.
为了解决传统字段匹配算法未能根据数据源数据特征进行匹配函数调整的缺陷,提出了一种基于关联token操作和支持向量机的自适应字段匹配算法.该算法使用关联操作集形式化描述字段间的相似性,提出了一种改进字段相似度计算的Cosme式,将关联操作集转换为描述字段相似度的规一化向量值,并设计了基于SVM学习的字段匹配算法.最后对实际实验数据进行了分析,结果表明了该算法对于不同数据质量的数据源都可取得较好的匹配精度.  相似文献   

8.
基于软件容错的动态实时调度算法   总被引:10,自引:1,他引:10  
在硬实时系统中,由于任务超时完成将会导致灾难性后果,因而硬实时系统具有严格的时间及可靠性限制条件.目前实时容错调度算法大部分针对硬件的容错,很少考虑软件运行的故障.提出了一种类似EDF基于软件容错的动态实时调度算法EBPA(expectation-based probing algorithm),该算法在任务执行过程中通过基于期望值的若干试探性检测步骤,提高了任务可执行性的预测,尽可能避免了任务早期的错误对后续任务的影响,因此提高了任务的完成率并同时有效地减少了浪费的CPU时间片.通过实验测试,同目前所知的同类算法相比,具有更佳的调度性能-调度成本比.  相似文献   

9.
相似重复记录识别是数据清理中的一个关键问题。文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特性,在求编辑距离之前先过滤前面的公共子串,减少了相似记录比较的开销。文章最后给出了改进算法与原算法的对比试验结果。  相似文献   

10.
相似重复记录识别是数据清理中的一个关键问题.文章针对常用的多趟邻接排序法提出了两点改进一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特性,在求编辑距离之前先过滤前面的公共子串,减少了相似记录比较的开销.文章最后给出了改进算法与原算法的对比试验结果.  相似文献   

11.
基于独立分量分析的自适应在线算法   总被引:1,自引:1,他引:1  
独立分量分析(ICA)是近几年兴起的一种高效的信号处理方法,学习步长的优化问题是自适应ICA重要的一方面,基于变步长思想,定义了一种描述信号分离状态的相似性测度,来衡量输出分量之间的相似性程度,并由此提出一种改进的自适应在线算法。根据相似性程度所反映的信号分离状态自适应调节步长,并建立学习步长和相似性测度变化量的非线性关系,克服了传统算法在信道矩阵变化时对步长自适应调整的不足。性能指标分析和仿真实验证明了算法的收敛性和稳态性能。  相似文献   

12.
针对动态环境的移动机器人路径规划问题,提出了一种改进哈里斯鹰算法(IHHO)与改进动态窗口算法(IDWA)的融合算法(IHHO-IDWA)。首先,针对哈里斯鹰算法后期搜索性能不足等问题,提出了融合自适应混沌和核心种群动态划分策略、融合黄金正弦策略以及动态云最优解扰动策略来提高算法的性能。其次,针对动态窗口算法存在规划的路径长和易陷入死锁等问题,提出了三个改进策略:增加子函数,保证算法能够规划出更短的路径;提出自适应权重策略,平衡算法局部避障能力和全局搜索性能;设定初始航向角,避免路径冗余。最后,通过测试函数、CEC2014函数的数值实验和静态、动态路径规划实验,验证了IHHO和IDWA性能有明显提升;通过50×50大型动态地图验证了融合算法较对照组算法规划的路径缩短了11.51%,证明了该方法的优越性。  相似文献   

13.
李维乾  张艺  郑振峰  王海  张紫云 《计算机应用研究》2020,37(9):2640-2644,2683
针对目前协同过滤推荐算法推荐精度和用户数据在算法中匹配度都不高的问题,提出一种多属性的条件受限波尔兹曼机协同过滤推荐模型(MA-CRBM)。该模型基于实值状态的条件玻尔兹曼机,融合了用户职业和性别属性,充分利用数据集中潜在的评分与未评分信息。在训练过程中,采用动态迭代采样算法对原采样算法进行了改进,克服了训练后期数据采样误差波动太大导致精确度不高的问题。在MovieLens 数据集上的实验结果表明,MA-CRBM模型具有较好的推荐效果,可以有效提升推荐模型的精度和效率。  相似文献   

14.
针对初始聚类中心对传统K-means算法的聚类结果有较大影响的问题,提出一种依据样本点类内距离动态调整中心点类间距离的初始聚类中心选取方法,由此得到的初始聚类中心点尽可能分散且具代表性,能有效避免K-means算法陷入局部最优。通过UCI数据集上的数据对改进算法进行实验,结果表明改进的算法提高了聚类的准确性。  相似文献   

15.
根据大数据稀疏性特征,把奇异值分解方法引入协作过滤算法中进行互联网站点用户的页面兴趣度的计算和验证,提出了一种基于改进协作过滤算法的用户页面兴趣度预测算法。该算法可通过在网络日志文件中提取显性用户评分数据存在的虚假评分,发现用户页面兴趣度和其影响因素。MATLAB仿真结果显示:提出的基于改进协同过滤算法的用户页面兴趣度测量方法可有效克服海量数据的稀疏性,在预测准确性、测量速度方面都有很大提高。  相似文献   

16.
本文提出了一种基于web的字符串的模糊匹配方法.将给定的源字符串S和T目标字符串按照分割好的字符串单元进行匹配,得到两个字符串的相似程度.此方法不同与串的模式匹配.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号