首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
韩姝敏  申德荣  聂铁铮  寇月  于戈 《软件学报》2017,28(9):2281-2292
多方隐私保护下的记录链接(privacy-preserving record linkage,PPRL)是在隐私保护下从多个数据源中找出代表现实世界中同一实体的过程,该过程除了最终匹配结果被数据源之间共享,其他信息均未被泄露.随着数据量的日益增大和现实世界数据质量问题的存在(如拼写错误、顺序颠倒等),多方PPRL方法的可扩展性和容错性面临挑战.目前,已有的大部分多方PPRL方法都是精确匹配方法,不具有容错性.还有少部分多方PPRL近似方法具有容错性,但在处理存在质量问题的数据时,由于容错性差和时间代价过大,并不能有效地找出数据源间的共同实体.因此,本文提出一种结合布隆过滤、安全合计、动态阈值、检查机制和改进的Dice相似度函数的多方PPRL近似方法.首先利用布隆过滤将各数据源中的每条记录信息转换成由0和1组成的位数组;然后计算每个对应位置bit 1所占的比率,并利用动态阈值和检查机制来判定匹配成功的位置;最后通过改进的Dice相似度函数计算出记录间的相似度,进而判断记录间是否匹配成功.本文实验证明文中提出的方法具有较好的可扩展性,并且在保证查准率的同时,比已有的多方近似PPRL方法具有更高的容错性.  相似文献   

2.
Problems in retrieval of names form large data bases and in nominal record linkage are discussed with respect to computational solutions. The quest for robust methods that can handle the typical variability of historical nominal information is discussed, with some emphasis on probabilistic methods. It is argued that comparison and assessment of different systems used on the same data could enhance our understanding of methodological issues.  相似文献   

3.
ABSTRACT

We face a growing need to be able to perform linkage among data set records to connect data about the same individual, organization or event so that further analysis becomes possible. At the same time, we also need to do a better job of protecting the privacy of the individuals identified by data set records. Therefore, it would be ideal if linkage could be effectively performed based not on the actual data but on some anonymous form of the data without diminishing the ability to link records whose identifiers are only “close” to each other, not equal, because of typical recording errors. This paper reviews existing proposals for how such anonymized string comparisons might be accomplished, but demonstrates that existing methods have various operational deficiencies. It therefore argues that new, more capable methods are needed.  相似文献   

4.
一种有效的的时间序列维数约简方法   总被引:3,自引:0,他引:3  
提出了一种用于相似性查询的时间序列维数约简的有效方法 .该方法采用快速小波变换将时间序列分解成不同频率的子带 ,用经过多分辨分解后得到的低频逼近信号重新表示原始序列 .这样将一个高维的时间序列映射到一个低维空间 .这种方法支持欧几理德距离标准和 L -平移欧几理德距离标准 .该算法的时间复杂性为 O(n) .  相似文献   

5.
针对基于HLA/RTI结构的仿真框架中数据采集与重放的问题,研究该框架中交互机制、对象建模、数据存储模型、数据重放模型和过滤机制等关键技术,提出一种基于HLA的数据采集与重放系统。应用于某型分布式交互对抗仿真系统中的结果表明,该模型具有可行性。  相似文献   

6.
针对基于HLA/RTI结构的仿真框架中数据采集与重放的问题,研究该框架中交互机制、对象建模、数据存储模型、数据重放模型和过滤机制等关键技术,提出一种基于HLA的数据采集与重放系统。应用于某型分布式交互对抗仿真系统中的结果表明,该模型具有可行性。  相似文献   

7.
一种有效的量化交易数据相似性搜索方法   总被引:7,自引:0,他引:7  
量化交易数据与一般交易数据的不同之处在于它在各个维上的值是数值型而不是二值型的。研究这种数据的有效的相似性搜索方法是一个重要而具有挑战性的课题,提出了一个新的相似性度量函数Hsim(),这个度量函数可以较好地克服Lp等传统的距离函数在高维空间中的缺点,并能将二值型和数值型数据距离的计算整合到一个统一的框架中去。结合量化交易数据的特点,构造了定义在该函数上的相似性索引结构,并对建立在该索引结构上的相似性查询方法进行了阐述。实验表明,这种搜索方法对量化交易数据的相似性搜索有较高的修剪率,能大大地加快搜索的速度。  相似文献   

8.
数据质量和数据清洗研究综述   总被引:75,自引:1,他引:75  
郭志懋  周傲英 《软件学报》2002,13(11):2076-2082
对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望.  相似文献   

9.
In order to speedup retrieval in large collections of data, index structures partition the data into subsets so that query requests can be evaluated without examining the entire collection. As the complexity of modern data types grows, metric spaces have become a popular paradigm for similarity retrieval. We propose a new index structure, called D-Index, that combines a novel clustering technique and the pivot-based distance searching strategy to speed up execution of similarity range and nearest neighbor queries for large files with objects stored in disk memories. We have qualitatively analyzed D-Index and verified its properties on actual implementation. We have also compared D-Index with other index structures and demonstrated its superiority on several real-life data sets. Contrary to tree organizations, the D-Index structure is suitable for dynamic environments with a high rate of delete/insert operations.  相似文献   

10.
11.
Chen  Wei  Wang  Weiqing  Yin  Hongzhi  Fang  Jun-Hua  Zhao  Lei 《计算机科学技术学报》2020,35(4):751-768
Journal of Computer Science and Technology - Linking user accounts belonging to the same user across different platforms with location data has received significant attention, due to the...  相似文献   

12.
刘贝贝  马儒宁  丁军娣 《软件学报》2015,26(11):2820-2835
针对处理大数据时传统聚类算法失效或效果不理想的问题,提出了一种大数据的密度统计合并算法(density-based statistical merging algorithm for large data sets,简称DSML).该算法将数据点的每个特征看作一组独立随机变量,并根据独立有限差分不等式获得统计合并判定准则.首先,使用统计合并判定准则对Leaders算法做出改进,获得代表点集;随后,结合代表点的密度和邻域信息,再次使用统计合并判定准则完成对整个数据集的聚类.理论分析和实验结果表明,DSML算法具有近似线性的时间复杂度,能处理任意形状的数据集,且对噪声具有良好的鲁棒性,非常有利于处理大规模数据集.  相似文献   

13.
李蓉蓉  王晖  陈冉 《计算机科学》2011,38(12):151-155
近年来,模式匹配作为Web信息集成管理与应用中的重要问题,得到了广泛关注和研究。已有模式匹配方法大多是基于模式信息的,对数据实例信息利用则较少。针对数据集成环境下模式信息不全或存在冲突的模式信息导致模式匹配结果不正确的问题,给出了计算属性间语义相似性的方法以提高模式匹配的性能,分析了模式内语义相近多属性间的语义差别,进一步给出了基于带权二分图最大化算法的模式匹配方法。通过实验,说明基于实例集合语义相似的模式匹配方法能在模式信息不全面或存在冲突的情况下,得到更完整、更准确的模式匹配。  相似文献   

14.
介绍了飞参传感器智能检测系统的工作原理、功能,并讨论了其中的关键问题及解决的技术方案。  相似文献   

15.
陈珂  洪银杰  陈刚 《软件学报》2012,23(6):1588-1601
基于可能世界的不确定集合的相似查询,从语义上或者从计算方法的角度来看,都有别于传统的确定型集合上的技术.由于集合中的项存在不确定性,即一个项出现在集合中是有一定概率的,使得传统处理集合的技术不再适用.提出了一个基于可能世界的集合期望相似度的度量公式.在期望的度量公式中,如果一对集合(X,Y)的期望相似度大于给定的阈值τ∈(0,1),则被称为相似集合对.一般的算法,在基于可能世界的情况下计算不确定集合的期望相似度,其复杂度是指数级的.提出了利用动态规划来计算集合期望相似度的算法,该算法的复杂度是多项式级别,极大地减少了计算时间.实验结果表明了基于该算法查询的可用性和高性能.  相似文献   

16.
Using Self-Similarity to Cluster Large Data Sets   总被引:6,自引:0,他引:6  
Clustering is a widely used knowledge discovery technique. It helps uncovering structures in data that were not previously known. The clustering of large data sets has received a lot of attention in recent years, however, clustering is a still a challenging task since many published algorithms fail to do well in scaling with the size of the data set and the number of dimensions that describe the points, or in finding arbitrary shapes of clusters, or dealing effectively with the presence of noise. In this paper, we present a new clustering algorithm, based in self-similarity properties of the data sets. Self-similarity is the property of being invariant with respect to the scale used to look at the data set. While fractals are self-similar at every scale used to look at them, many data sets exhibit self-similarity over a range of scales. Self-similarity can be measured using the fractal dimension. The new algorithm which we call Fractal Clustering (FC) places points incrementally in the cluster for which the change in the fractal dimension after adding the point is the least. This is a very natural way of clustering points, since points in the same cluster have a great degree of self-similarity among them (and much less self-similarity with respect to points in other clusters). FC requires one scan of the data, is suspendable at will, providing the best answer possible at that point, and is incremental. We show via experiments that FC effectively deals with large data sets, high-dimensionality and noise and is capable of recognizing clusters of arbitrary shape.  相似文献   

17.
以Hadoop为代表的可扩展大规模数据库难以进行多维可视化分析。为此,设计基于B/S架构的可视化分析框架Bizard。数据模型通过封装底层数据接口以支持业界多维数据访问协议XMLA,从而在展现层易于接入支持XMLA的传统分析工具,同时采用视图物化技术提高分析性能,利用互联网技术丰富用户分析体验。实验结果表明,该框架能在高达千万条记录级的数据上进行多维可视化分析。  相似文献   

18.
张莉  陈恭和 《计算机工程》2007,33(4):184-186
研究训练样本重要特征选择问题,提出了一种适合大规模数据集的特征选择方法。在不同的样本空间中利用特征相似性和浮动搜索方法的思想选择特征,基于互信息和分类准确度加权选择分类器,提出了基于Bagging选择性组合算法来提高特征选择算法稳定性。采用KDD Cup’99中的入侵检测数据对算法性能进行了验证。  相似文献   

19.
针对基于Spark框架的关联规则算法存在I/O开销大、数据结构和挖掘频繁集方式单一、计算支持度的方式效率低等问题,提出基于SparkSql进行分布式编程的算法。将数据集加载到DataFrame,利用改进后的布隆过滤器高效存储频繁集挖掘过程中产生的项集,解决RDD内存资源和计算速度受限问题。基于先验定理对事务、项目和项集进行精简,同时提出用Sql语句对项集中项目对应事务集合求交集的方式计算项集支持度,提高计算支持度的效率。提出了两种迭代算法和自适应数据的选择条件,增强该算法对各种数据集的泛化性。进行多组实验,证明提出的算法总是自适应本次迭代数据的特点选择最优的迭代方法,同时具有较高并行算法性能,可以扩展到更大规模集群和数据;同基于Spark框架的关联规则算法YAFIM和R-Apriori进行对比,在每次迭代和总体运行计算效率上有更好的表现。  相似文献   

20.
高效时序相似搜索技术   总被引:6,自引:0,他引:6  
时序相似搜索被认为是将来最有前途的技术之一.然而,时序数据是典型的高维海量数据,如何开发高效算法非常关键.文中概述了时序相似搜索技术的研究现状和进展以及研究的主要内容,讨论了该技术的几个重要应用范例,并对一些典型算法进行了定量分析;然后晕点论述了高效时序相似搜索的关键技术,包括边界过滤、三角不等式修剪、多辨析率检索方法、过滤精炼方案等.最后讨论并分析了时序的近似相似搜索技术.上述所有技术通过对比,其正面和反面都被深入分析.最后指出了存在的问题和未来的研究热点和方向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号