共查询到20条相似文献,搜索用时 192 毫秒
1.
相似重复记录检测是数据清洗领域中的一个重要方面.文中研究了在数据模式与匹配规则不变的前提下,数据集动态增加时近似重复记录的识别问题,针对基于聚类数算法精度不高、效率低下等问题提出一种改进算法.该算法运用等级法给属性赋予相应权重并约减属性,通过构造聚类树对相似记录进行聚类,增设了一个阈值以减少不必要的相似度比较次数,提高了算法的效率和准确率.最后通过实验证明了该算法的有效性,并提出了进一步的研究方向. 相似文献
2.
一种改进的相似重复记录检测算法 总被引:1,自引:0,他引:1
《计算机应用与软件》2014,(1)
数据仓库中相似重复记录的清洗对于提高数据质量有着重要意义,传统的判重算法有SNM算法、MPN算法及KNN算法等。针对MPN算法判重精度和时间效率不高等缺陷,提出一种改进的MPN算法。根据记录属性的重要性分别设定属性权值,将属性切分为原子,进一步计算原子的权值,通过判定属性相似度进而判定记录相似度,提高查准率和查全率。采用均分大数据集为若干数据子集,并行采用MPN算法进行判重,提高判重时间效率。理论和实验分析表明该方法提高了相似重复记录检测的准确率和时间效率。 相似文献
3.
4.
为了解决多源异构民航旅客服务数据集成过程中存在多模式匹配的效率不高、精确性不足、完整模式信息获取难度较大等问题,提出了一种基于SimHash和混合相似度的多模式匹配方法。该方法首先基于PMI计算特征单元权重,并通过SimHash算法构造属性列的签名来表示属性特征,以降低特征维度,进而引入K-means++算法对属性聚类并生成候选匹配集。最后基于属性的混合相似度构建属性映射图,以直观的方式展示属性间的匹配关系,同时提高多模式匹配效率。实验结果表明该方法具有可行性,为高效地解决多源异构民航旅客服务数据集成中的模式冲突问题提供新的解决方案。 相似文献
5.
传统的K均值聚类算法采用欧式距离计算样本间的相似度,由于未考虑不同样本属性对于衡量样本间距离区分度的重要性,导致相似度计算不准确,聚类性能较差。提出了一种改进的K均值聚类算法,通过计算每个属性相对于聚类类别的信息增益率,将信息增益率作为属性权重计算加权欧式距离,使对类别区分度贡献较大的属性拥有较大的权重,以提高样本间的相似性度量的准确性。在经典的入侵检测数据集UCI KDD CUP上的实验结果证明,与传统的基于K均值的入侵检测方法相比,此方法能够有效地提高检测准确率。 相似文献
6.
针对基于无监督特征提取的目标检测方法效率不高的问题,提出一种在无标记数据集中准确检测前景目标的方法.其基本出发点是:正确的特征聚类结果可以指导目标特征提取,同时准确提取的目标特征可以提高特征聚类的精度.该方法首先对无标记样本图像进行局部特征提取,然后根据最小化特征距离进行无监督特征聚类.将同一个聚类内的图像两两匹配,将特征匹配的重现程度作为特征权重,最后根据更新后的特征权重指导下一次迭代的特征聚类.多次迭代后同时得到聚类结果和前景目标.实验结果表明,该方法有效地提高Caltech 256数据集和Google车辆图像的检测精度.此外,针对目前绝大部分无监督目标检测方法不具备增量学习能力这一缺点,提出了增量学习方法实现,实验结果表明,增量学习方法有效地提高了计算速度. 相似文献
7.
针对分类研究中采用单一类型数据造成的结果失真, 提出了综合考虑产品属性和销售时间序列的两阶段优化聚类算法。分别采用基于属性的相似性排序及时间序列的分层优化聚类实现产品单独聚类, 然后基于初始聚类结果及参数化的动态相对权重提出考虑噪声数据处理的分层聚类方法实现产品综合优化分类。企业实例应用研究表明综合聚类模型及两阶段算法在聚类精度及时间复杂度上具有明显的优势, 相对权重的动态参数化设置有效解决了不同产品间个性化特征的差异表示。通用数据集的仿真进一步验证了算法在解决混合属性产品聚类问题时的优越性及广泛适用性。 相似文献
8.
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。 相似文献
9.
现有的基于道路网络对象聚类算法eb-cls采用网络距离描述移动对象间的相似性,没有充分利用对象的时间和空间属性,造成算法不能体现移动对象动态演化的移动模式,频繁更新聚类结果并且聚类精度不理想,执行效率低等问题。针对这些不足,提出基于道路网络的移动对象聚类算法MOBORN(Moving Objects Based on Road Network),该算法引入时空相似系数,考虑了移动对象速度、方向和位置。当移动对象间的时空相似系数达到给定阈值,将其分到同一聚类,并动态维护聚类结果,减少聚类次数。实验结果证明,与eb-cls算法相比,该算法聚类精度保持在97%以上,运行效率提高了40%。 相似文献
10.
基于内码序值聚类的相似重复记录检测方法* 总被引:4,自引:2,他引:2
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强, 相似文献
11.
12.
13.
记录匹配算法在异构数据的集成和数据开采等领域应用广泛,其主要任务是找出来自不同数据源中代表同一对象实体的记录,这些记录具备相似的属性和属性值。为避免组合爆炸问题,现有的记录匹配算法不再对数据库中的记录数两两匹配,而是结合排序策略和静态聚类匹配方法实现,但这种静态方法不适应数据的动态变化。因此,本文提出基于聚类汇总的记录匹配算法,该算法可以解决静态方法导致的匹配记录丢失问题,同时能够减少计算量,提高匹配记录搜索效率。 相似文献
14.
15.
16.
夏磊 《计算机测量与控制》2018,26(2):264-267
针对用户日常运动过程中步态计步器(Pedometer of Gait, POG)检测问题,相较于传统的统计机器学习方法,基于模板匹配的方法往往具有更高的精度和效率。主要提出了一种基于模板匹配的改进Dynamic Template Wrapping(DTW)方法,并在开源实验数据上做了验证。实验结果显示,相对于传统模板匹配方法和统计学习方法,所提出的IsDTW方法不仅具有相对较高的实验精度(92%),在运行效率上也在一定程度上优于传统方法,对实际应用更具价值。 相似文献
17.
神经网络的连接阈值以及权值直接影响数据库重复记录的检测效果,当前方法无法找到最优的神经网络的连接阈值和权值,导致数据库重复记录检测偏差比较大,并且数据库重复记录检测效率低,为了获得更优的数据库重复记录检测结果,提出了量子粒子群算法优化神经网络算法的数据库重复记录检测方法.首先分析当前数据库重复记录检测研究进展,并提取数... 相似文献
18.
半结构化网页中多记录信息的自动抽取方法 总被引:1,自引:0,他引:1
从多记录网页中准确的自动抽取出需要的信息,是Web信息处理中的一个重要研究课题。针对现有方法对噪声敏感的缺点,该文提出了基于记录子树的最大相似度发现记录模式的思想,以在同类记录的表现模式存在一定差异的情况下正确识别记录。在此基础上,实现了多记录网页自动抽取系统,该系统可以从多个学术论文检索网站中,自动获取结果网页,并自动抽取其中的记录。对常见论文检索网站的实验表明了该系统具有较好的有效性和准确性。 相似文献
19.
复杂场景实时目标检测方法 总被引:3,自引:0,他引:3
针对含有非平稳背景的复杂场景,提出一种基于空间混合高斯模型的实时目标检测方法.该方法以混合高斯模型作为颜色分布的统计框架,并在空间邻域中利用背景与前景隶属度之间的竞争确定像素的归属,提高了检测准确率;同时通过基于偏差均值的匹配判断和低权重模型的移除提升了混合高斯统计框架的性能,以实时地对运动目标进行准确的检测.实验结果表明,文中方法对非平稳背景有很好的适应能力,在检测准确率和运行效率上均优于其他检测方法. 相似文献
20.
图像序列中运动目标的检测和跟踪是智能监测系统中的重要问题,为了提高运动目标识别的效率和准确性,同时解决日标运动中的形变造成的检测困难,首先针对传统的运动日标检测算法所存在的局限.把小波提升框架运用到运动目标的检测中,然后充分利用小波的多分辨率特性和提升框架可以直接在时空域内设计的优点,再结合可变模板方法,提出了一种新的基于小波提升框架的运动目标检测算法。实验结果表明,新方法较好地解决了目标运动中因形变造成的检测困难,并提高了检测效率和速度。 相似文献