首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 8 毫秒
1.
针对移动群智感知中参与者数据的真值和隐私保护问题,提出了一种高效可验证的安全真值发现方法EVSTD,通过安全迭代更新参与者权值和评估对象真值,从而得到对象的真实数据。EVSTD中,参与者利用本地随机数和协商随机数对敏感数据进行双掩码数据扰动,使得EVSTD不仅能够保证敏感数据的隐私性,且解决了参与者因延迟发送感知数据而导致的敏感数据泄露问题。同时,EVSTD利用秘密共享协议解决了参与者掉线或失效的问题,且通过动态选择L邻居节点策略让参与者只与其关联邻居进行通信从而大大降低了参与者的计算和通信开销。此外,参与者通过计算敏感数据的同态哈希值以用于数据的验证并上传给服务器,服务器对敏感数据进行聚合和对验证信息进行乘积,并将计算结果发送给参与者,参与者再对聚合结果和证明信息进行验证,验证通过则说明聚合结果正确,进一步保证了真值发现结果的可信性,防止服务器对参与者的敏感数据进行篡改,保证了聚合结果的真实性。实验结果显示所提方法在保证数据隐私的同时获得真实可靠的数据信息,且能够有效的防止服务器篡改数据和共谋攻击。  相似文献   

2.
针对时间序列模体发现算法计算复杂,并且无法发现多实例模体的问题,提出基于子序列全连接和最大团的时间序列模体发现(TSSJMC)算法。首先,使用快速时间序列子序列全连接算法求得所有子序列之间的距离,生成距离矩阵;然后,设置相似性阈值,将距离矩阵转化为邻接矩阵,构造子序列相似图;最后采用最大团搜索算法从相似图中搜索最大团,最大团的顶点对应的时间序列为包含最多实例的模体。在公开的时间序列数据集上进行实验,选用已有的能够发现多实例模体的Brute Force和Random Projection算法作为对比对象,分别从准确性、效率、可扩展性和鲁棒性对TSSJMC算法进行分析并获得了客观的评判结果。实验结果表明,与Random Projection算法相比,TSSJMC算法在效率、可扩展性和鲁棒性法方面均有明显优势;与Brute Force算法相比,TSSJMC算法发现的模体实例数量虽略低,但其效率和可扩展性都优于Brute Force算法。因此,TSSJMC是质量和效率相平衡的算法。  相似文献   

3.
大数据时代,大规模数据往往由多个数据源组成并服务于多个数据驱动型应用程序。由于数据源的可信度不同,不同数据源往往会产生数据冲突,使得难以判断哪些信息是真实的。近年来,真值发现方法通过从多个数据源中找到最符合现实的真值来解决冲突而成为研究热门。当前真值发现算通常假设实体某个属性只有一个真值,然而在现实中,实体具有多个真值的情况更为常见。针对多值实体提出了一个多真值发现算法,该算法将多真值发现转化为一个函数优化问题。根据对目标函数的求解选取置信度最高的多个值作为实体的真值。同时在计算描述值的置信度时,提出一种非对称的支持度计算方法,结合相似值的支持对其置信度进行修正。通过多个真实数据集上的实验表明本文算法的准确性优于现有的真值发现算法。  相似文献   

4.
邹蕾  高学东 《计算机应用》2016,36(9):2472-2474
时间序列子序列匹配作为时间序列检索、聚类、分类、异常监测等挖掘任务的基础被广泛研究。但传统的时间序列子序列匹配都是对精确相同或近似相同的模式进行匹配,为此定义了一种全新的具有相似发展趋势的序列模式——时间序列同构关系,经过数学推导给出了时间序列同构关系判定的法则,并基于此提出了同构关系时间序列片段发现的算法。该算法首先对原始时间序列进行预处理,然后分段拟合后对各时间序列分段进行同构关系判定。针对现实背景数据难以满足理论约束的问题,通过定义一个同构关系容忍度参数使实际时间序列数据的同构关系挖掘成为可能。实验结果表明,该算法能有效挖掘出满足同构关系的时间序列片段。  相似文献   

5.
随着互联网技术的不断成熟,信息数据传播与获取的途径更加方便.然而,不同的数据源对于同一个现实对象可能提供不同的描述.这就要求数据集成系统能够从这些冲突描述中找出真相发现真值.在研究分析了近几年现有方法的优缺点的基础上提出了2个算法--IVote和IRVote. IVote考虑数据源可靠性和描述准确性之间的关系,采用概率投票的方式迭代计算.在此基础上考虑数据源的权威性,即数据源的投票比重,提出了IRVote算法.最终在多个真实数据集上的实验结果表明,2个算法能够有效地发现真值.并且在多数情况下IRVote比IVote效果好,从而验证了考虑数据源权威性的必要性.  相似文献   

6.
时间序列中快速模式发现算法的研究   总被引:3,自引:0,他引:3  
针对长时间序列,该文提出了一种新的能快速发现序列中时序模式的检索方法。首先将时间序列分成若干等长的子序列;接着从每个子序列中提取特征序列,该特征序列能够反映子序列中数据的变化趋势;然后根据每个特征序列将相应的子序列分配到一系列盒子中,使得不同盒子中的子序列因数据变化趋势不同而不相似,而在同一盒子中的序列由于数据变化趋势相同而有可能相似;最后通过计算每个盒子中任意两个子序列间的欧几里德距离来发现所有的模式。有关实验证明该算法是行之有效的。  相似文献   

7.
真值发现是解决群智感知中数据不可靠问题的重要数据处理技术,从海量数据中进行数据质量的甄别。为了解决云服务器下采集数据的隐私泄露问题以及数据不可靠性问题,文章设计了一种基于对称加密的真值发现方案,通过实验分析,该方案在保证数据隐私性和可靠性的前提下,降低了数据采集者端和云服务器端的计算开销。  相似文献   

8.
数据量的增长加大了信息获取的难度,如何从大量数据中准确获得有效信息是当前的研究热点.借鉴隐马尔可夫模型的状态转移概率,构建了基于图模型的多真值发现算法GraphTD,借助各数据源中描述的可信度转移矩阵,计算出数据值为真的概率的收敛值.同时,提出改进的初始真值的确定算法CVote,可有效提高GraphTD的正确率,避免了...  相似文献   

9.
由于互联网的开放性和多源性,不同互联网平台提供的数据参差不齐,多个数据源对同一实体的描述可能存在冲突,真值发现是消解语义冲突,提高数据质量的重要技术手段之一.传统真值发现算法通常假设数据源可靠度与观测值可信度间的关系可用简单函数表示,设计迭代规则或概率模型进行真值发现,而人工定义的条件通常难以反映数据底层的真实分布,导...  相似文献   

10.
为提高在多真值场景下真值发现的准确性,提出一种多蚁群同步优化的多真值发现算法(multi-ant co-lonies synchronization optimization based multi-truth discovery algorithm,MAC-SO-MTD)。以最大化各数据源提供的观测值集合与该对象真值集合之间相似度的加权和为目标,将多真值发现问题建模为求解子集问题,在此基础上设计蚁群算法进行求解:根据对象个数设置相应的蚁群,构造子集问题的有向图,利用路径概率转移公式进行同步搜索真值;将信息素更新分为本次迭代最优更新和本次迭代不更新,提高了算法的收敛速度。最后,通过算法复杂度分析和在真实数据集上的实验验证了该算法的优越性。  相似文献   

11.
12.
从多元时间序列观测数据中学习多个变量之间的因果关系是许多专业领域中的重要基本问题。现有的多元时间序列因果关系发现方法通常从每个个体的观测数据中学习个体因果关系,没有考虑部分个体之间可能存在相同的因果关系,导致样本利用不足。提出一种面向多元时间序列的群体因果关系发现算法。该算法分为2个阶段:第一阶段基于因果关系对个体之间的相似性进行度量,并把多个个体划分成多个群体,且无须指定群体的个数;第二阶段基于变分推断方法充分利用每个群体内的所有个体数据,从而学习群体因果关系。实验结果表明,该算法在多组不同参数生成的仿真数据上均具有较好的表现,与对比算法相比,AUC评分提升了5%~20%。在真实数据集中,该算法能够较好地区分具有不同因果关系的群体,并且能够学习到不同群体之间不同的因果关系,表明算法不仅具有因果关系发现能力,而且还具有多元时间序列聚类能力。  相似文献   

13.
李天义  谷峪  马茜  李芳芳  于戈 《软件学报》2016,27(7):1655-1670
真值发现作为整合由不同数据源提供的冲突信息的一种手段,在传统数据库领域已经得到了广泛的研究.然而现有的很多真值发现方法不适用于数据流应用,主要原因是它们都包含迭代的过程.本文针对一种特殊的数据流—感知数据流上的连续真值发现问题进行了研究.结合感知数据本身及其应用特点,提出一种变频评估数据源可信度的策略,减少迭代过程的执行,提高每一时刻多源感知数据流真值发现的效率.本文首先定义并研究了当感知数据流真值发现的相对误差和累积误差较小时,相邻时刻数据源的可信度变化需要满足的条件,进而给出了一种概率模型,以预测数据源的可信度满足该条件的概率.之后,通过整合上述结论,实现在预测的累积误差以一定概率不超过给定阈值的前提下,最大化数据源可信度的评估周期以提高效率,并将该问题转化为了一个最优化问题.在此基础上,提出了一种变频评估数据源可信度的算法—CTF-Stream (Continuous Truth Finding over Sensor Data Streams),CTF-Stream 结合历史数据动态地确定数据源可信度的评估时刻,在保证真值发现结果达到用户给定精度的同时提高了效率.最后,本文通过在真实的感知数据集合上进行实验,进一步验证了算法在处理感知数据流的真值发现问题时的效率和准确率.  相似文献   

14.
基于时间序列的相似子模式发现算法   总被引:4,自引:0,他引:4  
基于时问序列的数据挖掘时,一般需要对时间序列离散化,再聚类成不同的子模式。已有的方法常忽略时间序列本身的位置和整体特征,并且计算量大。针对其不足,文中提出一种检索时间序列分段关键点的算法,以关键点为边界分段,使用形态距离测度和快速剪除的算法,高效简便地检索出相似子模式。  相似文献   

15.
张军  马志民 《微机发展》2006,16(1):140-142
基于时间序列的数据挖掘时,一般需要对时间序列离散化,再聚类成不同的子模式。已有的方法常忽略时间序列本身的位置和整体特征,并且计算量大。针对其不足,文中提出一种检索时间序列分段关键点的算法,以关键点为边界分段,使用形态距离测度和快速剪除的算法,高效简便地检索出相似子模式。  相似文献   

16.
网络的普及和电子商务的发展改变了人们信息获取以及消费的方式.Web已经成为大多数人获取信息的重要来源.与此同时,互联网信息质量问题也逐渐凸显.Web中存在大量过时、错误、虚假、片面的信息.其中,不同网站为相同对象提供冲突信息的问题尤为突出.如何从这些冲突信息中找到正确信息成为亟待解决的问题,这类问题又被称为真值发现问题.通过对现有真值发现问题解决方法的调研,发现现有方法均未考虑数据源分类可信性差异对真值发现的影响.因此,提出基于数据源分类可信性的真值发现问题.提出2种方法探测数据源分类可信性差异,并采用贝叶斯的方法迭代计算数据源分类可信性和属性值准确性.另外,通过考虑数据源覆盖率和对象难度对真值发现的影响,进一步提高真值发现算法的准确性.一个真实数据集的实验结果表明,所提方法可以显著提高真值发现的准确性.  相似文献   

17.
在基于区块链的群智感知系统中构建数据真值估计机制和用户激励机制受到了越来越多的关注.与传统的群智感知系统依赖一个集中平台来承载数据感知任务不同,该系统利用区块链分布式结构和操作透明不可抵赖的特性,使其具有更好的安全性和交互性.但是目前的研究总是独立分离设计数据真值估计机制和参与者激励机制,这导致2类机制在实际应用时往往具有局限性.针对这一问题,在综合考虑了数据真值估计精确度与用户激励后,提出了一类基于隐私保护数据真值估计的用户激励机制.该机制由2个模块组成,具有隐私保护的数据真值估计模块PATD和具有隐私保护的用户激励模块PFPI,这2个模块都是通过利用同态加密机制CKKS来构建的.由于数据采集设备精确度不够等原因,用户收集的数据往往具有噪声,因此PATD对用户提交的含有噪声的数据的加密结果进行计算,并将解密后的计算结果作为相应数据真值的估计.因为所用的数据均是加密的,所以可以保护用户数据隐私,同时,该机制还可以保证解密后的估计值具有较高的估计精度.此外,作为一种激励机制,PFPI满足真实性、个体合理性且具有较高的社会福利,同时利用CKKS保证用户在竞标过程中的竞价隐私安全.最后,进行了大量实验来验证所提的基于隐私保护数据真值估计的用户激励机制的各种特性.实验结果表明,该机制与最新方法相比具有更好的性能.  相似文献   

18.
时间序列是信息系统一储存在的一类重要数据对象,而序列间的距离计算是很多时间序列数据开采或数据提取问题的核心。针对目前的序列距离定义模型对非总体的细微关联特征不敏感的问题,提出了一种新的时间序列距离定义模-时间序列的细微距离MD(X,Y),并提出了一种将时间序列由时域映射到频域,在频域中分离出不同的序列变化形式,以确定时间序列细微差别程度的算法-FDD算法。FDD算法具有较高的效率,且可以 作基准值  相似文献   

19.
基于无监督学习神经网络聚类原理,提出一种时间序列相似模式发现方法.通过快速离散余弦变换将序列映射到相应的特征模式空间,不但实现维数简约,而且克服传统神经网络不能处理过程序列的局限性.分析人工神经网络作为相似性度量模型的优越性,用"黑箱式"的网络权值代替传统的距离度量方法,并在此基础上实现相似模式的全部配对发现算法.对实际飞行数据仿真结果表明该方法的正确性,同时具有多尺度特性,可有效反映不同分辨率下序列间的相似程度.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号