首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 212 毫秒
1.
由于互联网的开放性和多源性,不同互联网平台提供的数据参差不齐,多个数据源对同一实体的描述可能存在冲突,真值发现是消解语义冲突,提高数据质量的重要技术手段之一。传统真值发现算法通常假设数据源可靠度与观测值可信度间的关系可用简单函数表示,设计迭代规则或概率模型进行真值发现,而人工定义的条件通常难以反映数据底层的真实分布,导致真值发现结果不理想。针对此问题,提出基于神经网络编码的真值发现方法TDNNE。首先利用“数据源-数据源”“数据源-观测值”关系及真值发现的假设构造双损失深度神经网络;然后利用该网络将数据源与观测值嵌入到高维空间,分别表示数据源可靠度与观测值可信度,使可靠数据源与可信观测值彼此接近(同时,不可靠数据源与不可信观测值彼此接近);最后基于嵌入空间进行真值发现。与传统方法相比,TDNNE方法不需要人工定义迭代规则或数据分布,而是利用神经网络自动学习数据源观测值间复杂的关系依赖。在真实数据集上的实验结果表明,该方法准确率较基于迭代的Accu等方法准确率提高约2%~25%,较基于概率图模型的3-Estimates等方法提高约2%~4%,较基于优化的CRH方法提高约2%~5%,较基于神经网络的FFMN方法提高约1%~2%。  相似文献   

2.
为提高在多真值场景下真值发现的准确性,提出一种多蚁群同步优化的多真值发现算法(multi-ant co-lonies synchronization optimization based multi-truth discovery algorithm,MAC-SO-MTD)。以最大化各数据源提供的观测值集合与该对象真值集合之间相似度的加权和为目标,将多真值发现问题建模为求解子集问题,在此基础上设计蚁群算法进行求解:根据对象个数设置相应的蚁群,构造子集问题的有向图,利用路径概率转移公式进行同步搜索真值;将信息素更新分为本次迭代最优更新和本次迭代不更新,提高了算法的收敛速度。最后,通过算法复杂度分析和在真实数据集上的实验验证了该算法的优越性。  相似文献   

3.
数据量的增长加大了信息获取的难度,如何从大量数据中准确获得有效信息是当前的研究热点.借鉴隐马尔可夫模型的状态转移概率,构建了基于图模型的多真值发现算法GraphTD,借助各数据源中描述的可信度转移矩阵,计算出数据值为真的概率的收敛值.同时,提出改进的初始真值的确定算法CVote,可有效提高GraphTD的正确率,避免了...  相似文献   

4.
随着互联网技术的不断成熟,信息数据传播与获取的途径更加方便.然而,不同的数据源对于同一个现实对象可能提供不同的描述.这就要求数据集成系统能够从这些冲突描述中找出真相发现真值.在研究分析了近几年现有方法的优缺点的基础上提出了2个算法--IVote和IRVote. IVote考虑数据源可靠性和描述准确性之间的关系,采用概率投票的方式迭代计算.在此基础上考虑数据源的权威性,即数据源的投票比重,提出了IRVote算法.最终在多个真实数据集上的实验结果表明,2个算法能够有效地发现真值.并且在多数情况下IRVote比IVote效果好,从而验证了考虑数据源权威性的必要性.  相似文献   

5.
大数据时代,大规模数据往往由多个数据源组成并服务于多个数据驱动型应用程序。由于数据源的可信度不同,不同数据源往往会产生数据冲突,使得难以判断哪些信息是真实的。近年来,真值发现方法通过从多个数据源中找到最符合现实的真值来解决冲突而成为研究热门。当前真值发现算通常假设实体某个属性只有一个真值,然而在现实中,实体具有多个真值的情况更为常见。针对多值实体提出了一个多真值发现算法,该算法将多真值发现转化为一个函数优化问题。根据对目标函数的求解选取置信度最高的多个值作为实体的真值。同时在计算描述值的置信度时,提出一种非对称的支持度计算方法,结合相似值的支持对其置信度进行修正。通过多个真实数据集上的实验表明本文算法的准确性优于现有的真值发现算法。  相似文献   

6.
社会物联网技术迅速发展,安全问题日益严重,对简便易用的物联网安全态势感知方法进行了研究。针对当前物联网安全态势感知系统缺乏通用性、过分依赖专家知识的缺点,提出了一种基于改进D-S证据理论的物联网安全态势感知方法。利用模糊高斯隶属函数计算漏洞信息隶属度矩阵,归一化后作为证据分布矩阵;利用改进Topsis方法衡量证据可信度,聚合两两证据间的局部可信度,根据态势评估场景改进期望正负解向量,充分抑制冲突性证据可信度,提高相互支持证据间可信度,利用加权平均方法进行漏洞信息融合得到态势评估结果;基于时间因子折扣和高危漏洞比例折扣证据理论融合形成态势感知结果,利用时间因子聚合多个态势评估数据,根据时间尺度对不同时刻的态势评估证据进行折扣,越接近当前时刻的证据折扣度越小,反之越大。同时,综合考虑不同时刻物联网漏洞信息,利用高危漏洞比例信息进行自适应动态加权,把不同时刻的高危信息折扣入识别框架,系统的危险变化信息集中体现在证据融合过程中。经过实验表明,在不同数量证据体融合和4种常见冲突证据融合中,改进Topsis方法对可信命题的融合概率更高;在态势评估方面,准确评估当前系统危险程度;在态势感知方面,折扣...  相似文献   

7.
陈娇娜  张翔  张生瑞 《控制与决策》2018,33(11):2080-2086
针对行程时间点预测不能描述预测结果的可信度问题,以高速公路收费系统作为基础数据源,提出基于Bootstrap的高速公路行程时间区间预测模型,通过范围概率(PICP)、预测区间平均宽度(MPIW)以及综合指标(CWC)反映区间预测性能.对预测模型建模和Bootstrap置信区间估计方法两个关键步骤进行分析和实证,比较小波神经网络和K最近邻两种常用数据驱动方法的预测误差,并分析4种Bootstrap置信区间估计方法的区间预测性能.在相同的置信水平下,Percentile Bootstrap-KNN模型的综合指标值CWC最小,说明该模型区间预测性能最佳.对陕西省高速公路某热点OD进行实例分析,结果表明,采用相同预测算法的区间预测比点预测的误差小,且预测区间宽度可以表征预测结果的可信度和参考价值.  相似文献   

8.
朱辉生  汪卫  施伯乐 《软件学报》2012,23(5):1183-1194
提出了一种数据流预测算法Predictor.该算法为每个待匹配的一般形式的情节规则分别使用了一个自动机,通过单遍扫描数据流来同时跟踪这些自动机的状态变迁,以搜索每个规则前件最近的最小且非重叠发生.这样不仅将无界的数据流映射到有限的状态空间,而且避免了对情节规则的过于匹配.另外,算法预测的结果是未来多个情节的发生区间和发生概率.理论分析和实验评估表明,Predictor具有较高的预测效率和预测精度.  相似文献   

9.
提出了一种数据流预测算法 Predictor.该算法为每个待匹配的一般形式的情节规则分别使用了一个自动机,通过单遍扫描数据流来同时跟踪这些自动机的状态变迁,以搜索每个规则前件最近的最小且非重叠发生.这样不仅将无界的数据流映射到有限的状态空间,而且避免了对情节规则的过于匹配.另外,算法预测的结果是未来多个情节的发生区间和发生概率.理论分析和实验评估表明,Predictor具有较高的预测效率和预测精度.  相似文献   

10.
面向不确定感知数据的频繁项查询算法   总被引:3,自引:0,他引:3  
王爽  王国仁 《计算机学报》2013,36(3):571-581
随着计算机网络技术的快速发展,无线传感器网络产生了大量的感知数据流.同时,传感器自身的特点使得感知数据具有不确定的特征,因此需要对传感器网络中不确定感知数据流处理技术进行研究.在传感器网络中,频繁项查询在环境监控和关联规则挖掘等方面具有重要意义.文中首先提出了基本算法,用以连续维护传感器网络中的概率阈值频繁项查询结果.针对基本算法需要维护所有元素的问题,又提出了一种优化算法,算法在两方面进行了优化:(1)设计了一种通过预测元素概率上界的方法进行候选集的构造,仅维护必要信息从而提高查询效率;(2)设计了一种新的cp-list结构,可以压缩不同窗口候选集中的重复元素,降低存储开销.实验结果表明文中提出的算法可以减少连续维护传感器网络中频繁项查询的计算代价和存储空间.  相似文献   

11.
针对传统真值发现算法无法直接应用于文本数据的问题,该文提出基于Bi-GRU并包含注意力机制的文本数据真值发现方法。根据文本答案的多因素性,词语使用的多样性与文本数据的稀疏性等特点,该文对用户答案进行细粒度划分,并利用Bi-GRU表征文本答案的语义信息,利用双层注意力机制分别学习用户答案关键词可靠度及用户答案可靠度。依据真值发现的一般假设,无监督学习上下文向量,并最终获得可靠答案。实验结果表明,该算法适用于文本数据真值发现场景,较基于检索的方法及传统真值发现算法效果更优。  相似文献   

12.
无线传感器网络簇内自适应融合算法研究*   总被引:3,自引:1,他引:3  
无线传感器网络中采集的数据存在着较大的冗余与误差,且影响数据的可靠性。针对这个问题,分析了簇内数据误差成因,提出了一种改进后的自适应数据融合算法。该算法从节点测量数据自身着手,通过迭代得到各个节点测量数据的无偏估计值,以各个节点与估计值的欧氏距离作为各节点可信度的描述。实验证明,该融合算法提高了数据的精度和可信度。同时,通过与分批估计融合方法和传统的自适应加权融合方法的比较分析,表明该方法融合效果更好。  相似文献   

13.
Continuous sensor stream data are often recorded as a series of discrete points in a database from which knowledge can be retrieved through queries. Two classes of uncertainties inevitably happen in sensor streams that we present as follows. The first is Uncertainty due to Discrete Sampling (DS Uncertainty); even if every discrete point is correct, the discrete sensor stream is uncertain – that is, it is not exactly like the continuous stream – since some critical points are missing due to the limited capabilities of the sensing equipment and the database server. The second is Uncertainty due to Sampling Error (SE Uncertainty); sensor readings for the same situation cannot be repeated exactly when we record them at different times or use different sensors since different sampling errors exist. These two uncertainties reduce the efficiency and accuracy of querying common patterns. However, already known algorithms generally only resolve SE Uncertainty. In this paper, we propose a novel method of Correcting Imprecise Readings and Compressing Excrescent (CIRCE) points. Particularly, to resolve DS Uncertainty, a novel CIRCE core algorithm is developed in the CIRCE method to correct the missing critical points while compressing the original sensor streams. The experimental study based on various sizes of sensor stream datasets validates that the CIRCE core algorithm is more efficient and more accurate than a counterpart algorithm to compress sensor streams. We also resolve the SE Uncertainty problem in the CIRCE method. The application for querying longest common route patterns validates the effectiveness of our CIRCE method.  相似文献   

14.
Anomaly detection is considered an important data mining task, aiming at the discovery of elements (known as outliers) that show significant diversion from the expected case. More specifically, given a set of objects the problem is to return the suspicious objects that deviate significantly from the typical behavior. As in the case of clustering, the application of different criteria leads to different definitions for an outlier. In this work, we focus on distance-based outliers: an object x is an outlier if there are less than k objects lying at distance at most R from x. The problem offers significant challenges when a stream-based environment is considered, where data arrive continuously and outliers must be detected on-the-fly. There are a few research works studying the problem of continuous outlier detection. However, none of these proposals meets the requirements of modern stream-based applications for the following reasons: (i) they demand a significant storage overhead, (ii) their efficiency is limited and (iii) they lack flexibility in the sense that they assume a single configuration of the k and R parameters. In this work, we propose new algorithms for continuous outlier monitoring in data streams, based on sliding windows. Our techniques are able to reduce the required storage overhead, are more efficient than previously proposed techniques and offer significant flexibility with regard to the input parameters. Experiments performed on real-life and synthetic data sets verify our theoretical study.  相似文献   

15.
为了提高线源模型的工程应用效率,文中研究和探讨了基于线源模型的探针式传感器测试系统和数据处理的算法,首先简要的介绍了探针式传感器制作原理,其次基于无线传感器Sun SPOT,研究探针测试系统的设计,并在测量电路上提出了一种新的线性电桥测试电阻的方案;在数据处理上,采用反问题分析方法,提出了一种新的求解算法一区间粒子算法...  相似文献   

16.
均匀线阵中幅相及位置误差的快速校正方法   总被引:5,自引:0,他引:5  
着重研究了针对均匀线阵中由各阵元幅度相位不一致性及位置误差的综合影响引起的阵列流形误差的校正问题。该方法利用单信号源(可以为事先设置的校正源或某目标源),无须准确知道信号源的波迭方向,只须在校正过程中将阵列天线以已知角度旋转两次.即可对各阵元的幅度、相位及位置因子作较精确的估计,从而估计出综合误差存在情况下的阵列流形,并可同时估计信号源的波达方向。该方法无需迭代.计算简单快速.且具有较高的估计精度。计算机模拟实验结果表明了本文方法的有效性。  相似文献   

17.
A typical pervasive monitoring system like a smart building depends on an infrastructure composed of hundreds of heterogeneous wireless sensor devices. Managing the energy consumption of these devices poses a challenging problem that affects the overall efficiency and usability. Existing approaches for sensor energy consumption typically assume a single monitoring application to consume sensor data and a static configuration for sensor devices. In this paper, we focus on a multi-application context with dynamic requirements and multi-modal sensor devices. We present 3SoSM, an approach to optimize interactions between application requirements and wireless sensor environment in real-time. It relies on an energy-aware dynamic configuration of sensor devices to lower energy consumption while fulfilling application requirements. To bind together sensor configuration and dynamic management of data streams, we design a sustainable multi-application monitoring system architecture for pervasive environments that collects application requirements for sensor data streams and optimizes them into sensor configurations. To demonstrate the effectiveness of our approach, a set of experiments are designed in the context of smart buildings. We comparatively evaluate our approach to show how dynamic sensor configuration for multiple monitoring applications indeed outperforms the mainstream duty-cycling method.  相似文献   

18.
何杰  卢菁  邵清  刘丛 《计算机应用研究》2020,37(6):1729-1734
目前已提出的真值发现方法无法解决对象由多个单值属性与多值属性共同组成的情况,若将这些属性拆分后分别处理则会破坏属性间原有的关联,导致计算结果不准确。为此提出一种多属性数据的联合真值发现方法ATD4MA,将对象各观察值通过遗传算法中的染色体进行建模,针对问题特性对群体初始化算法和染色体基本动作进行改进,控制染色体的演化行为对各属性进行约束,以各对象的真值染色体与各数据源提供的观察值染色体间的差异加权和达到最小为目标建立优化模型,解决了对象包含多个属性的真值发现问题。在两个真实数据集上的实验,证明了提出方法的正确性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号