首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于聚类模式的多数据源记录匹配算法   总被引:3,自引:0,他引:3  
提出了一种基于聚类技术的多数据源记录匹配算法,该算法运用的罩盖(Canopy)聚类技术是一种专门对付大型数据的聚类方法,此算法不仅是一个与应用领域无关的算法,跟其它模型相比,在保证原有准确程度的前提下,大大地减少了必需的计算量,提高了记录匹配的效率.  相似文献   

2.
根据入侵检测中协议分析技术与聚类数据挖掘技术各自不同的检测特点,提出了一种新的入侵检测方法,将协议分析技术融合到聚类数据挖掘中。通过数据清洗和协议分析不但可以有效减少聚类挖掘的数据量,快速地检测出入侵行为,而且可以让被挖掘的数据更加符合聚类数据挖掘的先决条件,提高了聚类数据挖掘检测的效率。  相似文献   

3.
Web数据挖掘中的数据预处理   总被引:11,自引:0,他引:11  
Web数据挖掘是分析网络应用的主要手段,其数据源一般是网络服务器日志,然而日志记录的是杂乱的,不完整的,不准确的并且是非结构化的数据,必须进行数据预处理。文章将预处理过程分为3个阶段-数据清洗、区分使用者,会话识别,并提出了一个高效的Web数据挖掘预处理结构WLP和相应的算法。  相似文献   

4.
提出一种新的基于聚类挖掘的入侵检测方法。通过将入侵检测方法中的协议分析技术应用于数据清洗中,使得聚类数据挖掘理论与入侵检测实践更加贴近。此外,它还对聚类数据挖掘中的一些经典算法进行了扩展,以增强入侵检测的决策分析的能力。  相似文献   

5.
基于多数据源融合挖掘用户的属性特征,为企业开展个性化推荐和精准营销提供了思路和参考.论文以构建多维用户画像为目标,提出了融合多数据源的用户画像构建方法.首先,基于改进的k-means聚类算法针对搜索记录数据和京东评论数据分别建立了用户兴趣特征标签库和用户消费特性标签库;其次,利用word2vec词向量进行相似度计算来获...  相似文献   

6.
基于改进的模糊聚类算法的Web日志挖掘   总被引:1,自引:1,他引:0  
Web日志挖掘是Web数据挖掘领域中的一个重要研究方向,是通过对Web日志记录的挖掘发现用户访问Web页面的浏览模式用以改进Web站点的性能和组织结构。在介绍Web日志挖掘的原理和技术的基础上对Web日志挖掘中的聚类技术进行了分析研究,并重点讨论了有关模糊聚类算法的原理及计算过程,对这一算法进行了改进后的优化和应用,最后用实例对算法加以验证。  相似文献   

7.
烟草零售环节积累了大量交易数据,但其中隐藏的有价值的信息还未被有效挖掘。本文针对某省烟草零售户卷烟进销存流水数据进行数据挖掘研究。在原始数据清洗和预处理之后,对于零售户分类中遇到的噪声数据,运用Kmeans算法进行聚类。对聚类中的噪声干扰,提出了离群点消除方法,将离群点划分到另外的Voronoi单元中,增强正常数据点的聚类有效性。该系统在营销实践过程中得以应用,证明了方法的有效性。  相似文献   

8.
用户域名访问记录的信息再挖掘主要是利用网络数据分析挖掘用户的网络行为,首先通过DNS数据包采集和清洗,完成海量数据的筛选,然后依据用户的域名访问类别特征,采用数据库匹配和网页自动分类两个步骤完成网页分类过程,形成用户指纹模式,并进一步对其进行聚类,实现用户群体划分和跨时域跟踪。  相似文献   

9.
高质量的数据不仅为后续知识挖掘提供了最有效的数据源而且保证了所挖掘知识的可信度和可用度。为了确保基于食品安全事件数据所挖掘知识的有效性和真实性,本文提出了一种基于本体构建技术的食品安全事件数据清洗流程,并对所清洗的数据进行了相应的评价。本文所清洗的数据是酒鬼酒塑化剂这一食品安全事件数据,在具体清洗过程中,基于斯坦福大学医学院开发的七步法,通过Protégé这一工具,构建了相应的食品安全事件清洗本体。该研究为探究领域化数据的清洗工作提供了一种可行性的操作方案,并且对于所清洗的数据增加了一定的语义知识。  相似文献   

10.
基于模糊聚类的Web日志挖掘   总被引:10,自引:0,他引:10  
李桂英  李吉桂 《计算机科学》2004,31(12):130-131
本文使用模糊聚类的方法对Web日志进行数据挖掘,实现用户聚类和页面聚类,并设计与实现了一个基于模糊聚类的Web日志挖掘系统。  相似文献   

11.
一种使用双阈值的数据仓库环境下重复记录消除算法   总被引:3,自引:1,他引:2  
重复记录消除是数据清理研究中一个很重要的方面,它的目的是检测并消除那些冗余的、可能对后来的OLAP和数据挖掘造成影响的数据。已有研究都是通过设定一个相似度阈值来判断两条记录是否为重复记录。过大的阈值将导致返回率下降,过小的阈值将导致误检率上升。文章提出了一种双阈值的重复记录消除方法,利用数据仓库环境下数据库表之间的外键联系做进一步判断,可以有效地提高判断质量,减小误检率。  相似文献   

12.
数据清理是构建数据仓库中的一个重要研究领域。检测相似重复记录是数据清洗中一项非常重要的任务。提出了一种聚类检测相似重复记录的新方法,该方法是基于N-gram将关系表中的记录映射到高维空间中,并且通过可调密度的改进型DBSCAN算法IDS来聚类检测相似重复记录。并用实验证明了这种方法的有效性。  相似文献   

13.
在大数据环境下,数据库中的记录数量呈指数上升,如何高效率地检测出相似重复记录是数据清洗的关键点和提高数据质量的首要任务。近十年国内外相似重复记录检测方法又涌现出相当多的高水平成果,迫切需要对新的文献加以归纳梳理。以2008—2019年的国内外相似重复记录检测相关文献为研究样本,结合社会网络和知识图谱对其发文量、核心机构、作者合作群、研究热点和研究趋势进行分析。分析发现,作者合作结构整体上较松散,相似重复记录各类检测方式的集成、应用领域的扩展和通用框架的研究成为热点,缺失数据值的处理、多数据源的识别、大数据量的分块处理成为相似重复记录领域的挑战。  相似文献   

14.
近似重复记录的增量式识别算法   总被引:2,自引:0,他引:2  
摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IMPN(IncrementalMulti-Passsorted-Neighborhood)。文章最后给出了实验结果。  相似文献   

15.
相似重复记录识别是数据清理中的一个关键问题。文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特性,在求编辑距离之前先过滤前面的公共子串,减少了相似记录比较的开销。文章最后给出了改进算法与原算法的对比试验结果。  相似文献   

16.
对基于MPN数据清洗算法的改进   总被引:2,自引:0,他引:2  
相似重复记录的清除是数据清洗领域中的一个很重要的方面,它的目的是清除冗余的数据.介绍了该问题的流行算法-多趟近邻排序算法MPN(Multi-Pass Sorted Neighborhood),该算法能较好地对相似重复记录进行清除,但也有其不足:一是在识别中窗口大小固定,窗口的大小选取对结果影响很大.二是采用传递闭包,容易引起误识别.提出了基于MPN算法的一种改进算法,试验结果证明改进算法在记忆率和准确率上优于MPN算法.  相似文献   

17.
A knowledge-based approach for duplicate elimination in data cleaning   总被引:6,自引:0,他引:6  
Existing duplicate elimination methods for data cleaning work on the basis of computing the degree of similarity between nearby records in a sorted database. High recall can be achieved by accepting records with low degrees of similarity as duplicates, at the cost of lower precision. High precision can be achieved analogously at the cost of lower recall. This is the recall–precision dilemma. We develop a generic knowledge-based framework for effective data cleaning that can implement any existing data cleaning strategies and more. We propose a new method for computing transitive closure under uncertainty for dealing with the merging of groups of inexact duplicate records and explain why small changes to window sizes has little effect on the results of the sorted neighborhood method. Experimental study with two real-world datasets show that this approach can accurately identify duplicates and anomalies with high recall and precision, thus effectively resolving the recall–precision dilemma.  相似文献   

18.
基于内码序值聚类的相似重复记录检测方法*   总被引:4,自引:2,他引:2  
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强,  相似文献   

19.
A major source of uncertainty in databases is the presence of duplicate items, i.e., records that refer to the same real-world entity. However, accurate deduplication is a difficult task and imperfect data cleaning may result in loss of valuable information. A reasonable alternative approach is to keep duplicates when the correct cleaning strategy is not certain, and utilize an efficient probabilistic query-answering technique to return query results along with probabilities of each answer being correct. In this paper, we present a flexible modular framework for scalably creating a probabilistic database out of a dirty relation of duplicated data and overview the challenges raised in utilizing this framework for large relations of string data. We study the problem of associating probabilities with duplicates that are detected using state-of-the-art scalable approximate join methods. We argue that standard thresholding techniques are not sufficiently robust for this task, and propose new clustering algorithms suitable for inferring duplicates and their associated probabilities. We show that the inferred probabilities accurately reflect the error in duplicate records.  相似文献   

20.
Data cleaning is an inevitable problem when integrating data from distributed operational databases, because no unified set of standards spans all the distributed sources. One of the most challenging phases of data cleaning is removing fuzzy duplicate records. Approximate or fuzzy duplicates pertain to two or more tuples that describe the same real-world entity using different syntaxes. In other words, they have the same semantics but different syntaxes. Eliminating fuzzy duplicates is applicable in any database but is critical in data-integration and analytical-processing domains, which involve data warehouses, data mining applications, and decision support systems. Earlier approaches, which required hard coding rules based on a schema, were time consuming and tedious, and you couldn't later adapt the rules. We propose a novel duplicate-elimination framework which exploits fuzzy inference and includes unique machine learning capabilities to let users clean their data flexibly and effortlessly without requiring any coding  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号