首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
如何在互联网上大量的带有地理位置标签和时间标签的信息中查找满足用户需求的信息十分重要.文中针对带有地理位置和时间标签的文本信息,提出多样性感知的时空文本信息的k近邻查询处理方法.首先,归一化处理数据对象的时空变量,并建立三维Rtree索引,有效融合数据对象的时间变量和空间变量.然后,提出多样性感知的k近邻查询算法(DST-KNN)和改进的DST-KNN(IDST-KNN).最后,通过基于大量数据集的实验验证文中查询处理方法的高效性和准确性.  相似文献   

2.
针对SMOTE(synthetic minority over-sampling technique)等基于近邻值的传统过采样算法在处理类不平衡数据时近邻参数不能根据少数类样本的分布及时调整的问题,提出邻域自适应SMOTE算法AdaN_SMOTE.为使合成数据保留少数类的原始分布,跟踪精度下降点确定每个少数类数据的近邻值,并根据噪声、小析取项或复杂的形状及时调整近邻值的大小;合成数据保留了少数类的原始分布,算法分类性能更佳.在KE E L数据集上进行实验对比验证,结果表明AdaN_SMOTE分类性能优于其他基于近邻值的过采样方法,且在有噪声的数据集中更有效.  相似文献   

3.
在外包空间数据库模式下,数据持有者委托第三方数据发布者代替它来管理数据并且执行查询.当发布者受到攻击或者由于自身的不安全性,它可能返回不正确的查询结果给用户.基于已有的反向k近邻(ReversekNearest Neighbor,RkNN)查询方法,采用将反向k近邻查询验证转化成k近邻查询验证和范围查询验证的思想,提出一种反向k近邻查询验证的方法,并且设计了相应的算法,用于验证返回给客户端结果的正确性(没有结果点被篡改),有效性(结果点都满足用户的查询要求)和完整性(没有遗漏符合查询要求的结果点).实验验证了算法的有效性和实用性.  相似文献   

4.
传统的近邻保持嵌入(NPE)算法采用欧氏距离作为近邻点选取的度量,但欧氏距离只表示两点间的直线距离,在高维空间中不一定能反映数据间的真实空间分布,易导致近邻选取不准确.针对此问题,提出了相关近邻NPE(CNPE)算法.该方法利用相关系数度量数据间的近邻关系,实现更准确的局部重构,提取更有效的鉴别特征.在CMU PIE人脸数据集上的实验结果表明,提出的CNPE算法比NPE、LLE、LPP拥有更高的识别率.CNPE算法增加了近邻为同类的概率,能更有效地实现人脸识别.  相似文献   

5.
基于k近邻的标签噪声过滤对近邻参数k的选取较敏感.针对此问题,文中提出近邻感知的标签噪声过滤算法,可有效解决二分类数据集的类内标签噪声的问题.算法分开考虑正类样本和负类样本,使分类问题中的标签噪声检测问题转化为两个单类别数据的离群点检测问题.首先通过近邻感知策略自动确定每个样本的个性化近邻参数,避免近邻参数敏感的问题.然后根据噪声因子将样本分为核心样本与非核心样本,并把非核心样本作为标签噪声候选集.最后结合候选样本的近邻标签信息,进行噪声的识别与过滤.实验表明,文中方法的噪声过滤效果和分类预测性能均较优.  相似文献   

6.
针对间歇过程的多工况和非线性特征,提出一种基于近邻特征标准化(Nearst Neighborhood Feature Standardization,NNFS)样本的核特征量(Kernel Feature Statistics,KFS)故障检测方法。首先,将间歇过程数据按批次方向展开构成二维建模样本,计算每个样本的局部近邻,采用近邻特征实现标准化,提取多工况批次之间的正常偏差,克服Z-score标准化将多工况过程数据看作一个整体而造成的不准确问题。其次,通过核方法将经过标准化后的样本映射到高维空间,在核空间建立监视模型,计算特征量,并提出采用方差分析(variance,VAR)方法确定核参数,通过核密度估计法确定统计控制限。最后,在青霉素发酵过程进行仿真研究,通过比较表明了所提方法的有效性。  相似文献   

7.
针对不平衡数据分类问题,一种基于密度的近邻分类算法(DNN)被提出。它利用核密度估计敏锐地捕捉不平衡数据的局部分布特征,由此产生更好的分类结果。用核密度估计方法估计查询实例的各类别密度,以此对其进行密度定位;将原始数据空间中的点映射到由类别密度和距离信息构成的空间;在这个映射空间中动态地选择近邻并对查询实例进行分类。实验结果表明,DNN算法在15个不平衡数据集上分类性能良好。  相似文献   

8.
距离的度量方法是影响K近邻分类算法的最重要因素,普通的欧式距离度量方法只对数值敏感无法反映数据内部的关联,对此在K近邻文本分类中引入一种大边界最近邻(LMNN)距离度量学习算法,并针对此算法会加剧数据密度分布不均的情况,提出一种改进的基于样本密度的大边界最近邻文本分类算法(DLMNNC)。该算法首先利用LMNN完成对样本集的训练得到映射矩阵L对原数据空间进行重构,然后为了解决LMNN算法可能会加剧样本分布不均匀的问题定义一个密度函数D,最后用密度函数结合K近邻决策条件,实现文本分类。实验证明DLMNNC在很大程度上提高了文本分类精度。  相似文献   

9.
子空间聚类算法只能处理小规模数据,且无法处理样本外数据.针对此问题,文中提出采用二次采样策略的子空间聚类框架(TSSC).该框架由两个核心部件组成:判别性协作表示(DCR)与多尺度K近邻(KNN)采样方法.在TSSC中,DCR首先结合多尺度KNN对数据点进行特征变换,从而保证属于同一子空间的点有更一致的表示.为了提高算法的可扩展性,TSSC在新的特征空间中使用多尺度KNN对数据进行二次采样,并根据采样点获得的初步聚类结果训练线性分类器,最后根据学习得到的分类器对剩余样本点进行分类,获得最终的聚类结果.在真实数据集上的实验验证TSSC的有效性.  相似文献   

10.
针对近邻传播算法不适合处理多重尺度和任意形状数据的问题,提出了一种基于多维空间可变换的MSAAP(multidimensional similarity adaptive affinity propagation)算法。首先,通过熵值法计算数据样本点的属性权重;然后,根据属性权重构造出一种新型计算相似性矩阵的方法;最后,根据属性权重的优先级将样本点的空间划分成若干个空间块,并计算空间块的吸引度和归属度之和,进而调整样本点的空间分布。通过13个不同形状的UCI数据集和3个人脸数据库进行对比实验,从准确率、算法时间、聚类个数3个维度去分析,最终实验结果证明所提出的MSAAP算法聚类效果更优。  相似文献   

11.
针对数据清洗时数据的标准化问题提出采用基于特征的马尔可夫模型来解决这一问题.在学习模型的过程中,通过最大熵方法提高样本学习的泛化能力.这种方法能够充分利用数据的重叠特征来辨识数据项对应的状态,结合了统计模型和规则模型的优点.理论分析和实验表明,该方法可以有效地实现数据清洗时的数据规格化.  相似文献   

12.
基于聚类分析技术的数据清洗研究   总被引:3,自引:0,他引:3       下载免费PDF全文
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数 据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。  相似文献   

13.
针对数据清洗时数据的标准化问题提出采用基于特征的马尔可夫模型来解决这一问题。在学习模型的过程中,通过最大熵方法提高样本学习的泛化能力。这种方法能够充分利用数据的重叠特征来辨识数据项对应的状态,结合了统计模型和规则模型的优点。理论分析和实验表明,该方法可以有效地实现数据清洗时的数据规格化。  相似文献   

14.
基于规则引擎的数据清洗   总被引:9,自引:0,他引:9       下载免费PDF全文
叶舟  王东 《计算机工程》2006,32(23):52-54
以往的数据清洗研究存在以下缺陷:检测和修复动作要么使用灵活性差的硬编码,要么依靠灵活却低效的人工判断。该文提出了一个使用规则来描述清洗逻辑,使用规则引擎来执行清洗逻辑,从而能够处理各种数据质量问题的数据清洗架构REBDCA,解决了该问题。展示了REBDCA和一个ETL工具的集成,测试了REBDCA的性能,并和用硬编码完成相同逻辑的方案进行了性能对比。  相似文献   

15.
The Bayesian approach is widely used in automatic target recognition (ATR) systems based on multisensor fusion technology. Problems in data fusion systems are complex by nature and can often be characterized by not only randomness but also fuzziness. However, in general, current Bayesian methods can only account for randomness. To accommodate complex natural problems with both types of uncertainties, it is profitable to improve the existing approach by incorporating fuzzy theory into classical techniques. In this paper, after representing both the individual attribute of the target in the model database and the sensor observation or report as the fuzzy membership function, a likelihood function is constructed to deal with fuzzy data collected by each sensor. A similarity measure is introduced to determine the agreement degree of each sensor. Based on the similarity measure, a consensus fusion approach (CFA) is developed to generate a global likelihood from the individual attribute likelihood for the whole sensor reports. A numerical example is illustrated to show the target recognition application of the fuzzy-Bayesian approach. The text was submitted by the authors in English.  相似文献   

16.
数据仓库环境下以用户为中心的数据清洗过程模型   总被引:7,自引:1,他引:7  
数据清洗是数据仓库和数据挖掘中非常重要的一个环节。本文首先分析总结了数据清洗的有关概念,给出了数据清洗中需要解决的质量问题,并总结了解决这些问题的技术和方法。在此基础上提出了以人为中心的数据清洗过程模型。该模型集成了工作流技术、数据集成、数据转换和数据挖掘技术。给出了每个工具箱应该提供的基本功能。  相似文献   

17.
Target tracking applications of wireless sensor networks (WSNs) may provide a high performance only when a reliable collection of target positions from sensor nodes is ensured. The performance of target tracking in WSNs is affected by transmission delay, failure probability, and nodes energy depletion. These negative factors can be effectively mitigated by decreasing the amount of transmitted data. Thus, the minimization of data transfers from sensor nodes is an important research issue for the development of WSN-based target tracking applications. In this paper, a data suppression approach is proposed for target chasing in WSNs. The aim of the considered target chasing task is to catch a moving target by a mobile sink in the shortest time. According to the introduced approach, a sensor node sends actual target position to the mobile sink only if this information is expected to be useful for minimizing the time in which target will be caught by the sink. The presented method allows sensor nodes to evaluate the usefulness of sensor readings and select those readings that have to be reported to the sink. Experiments were performed in a simulation environment to compare effectiveness of the proposed approach against state-of-the-art methods. Results of the experiments show that the presented suppression method enables a substantial reduction in the amount of transmitted data with no significant negative effect on target chasing time.  相似文献   

18.
唐伟  郭伟 《计算机系统应用》2010,19(7):1646-1656
无线传感器网络(wireless sensor networks,简称WSNs)由一组低功率且能量受限的传感器节点构成,设计此类网络的一个基本挑战便是最大化网络生命期的问题.在WSNs中,由于邻近传感器节点所收集的数据之间往往具有时空相关性,多采用数据聚合技术作为去除数据冗余、压缩数据大小的有效手段.合理地应用数据聚合技术,可以有效地减少数据传递量,降低网络能耗,从而延长网络生命期.研究了WSNs中结合数据聚合与节点功率控制的优化数据传递技术,提出了一种新的最大化网络生命期的路由算法.该算法采用遗传算法(genetic algorithm,简称GA)最优化数据聚合点的选择,并采用梯度算法进一步优化结果.该算法均衡节点能耗,并最大化网络生命期.仿真结果表明,该算法极大地提高了网络的生命期.  相似文献   

19.
This article presents a new method to solve a dynamic sensor fusion problem. We consider a large number of remote sensors which measure a common Gauss–Markov process. Each sensor encodes and transmits its measurement to a data fusion center through a resource restricted communication network. The communication cost incurred by a given sensor is quantified as the expected bitrate from the sensor to the fusion center. We propose an approach that attempts to minimize a weighted sum of these communication costs subject to a constraint on the state estimation error at the fusion center. We formulate the problem as a difference-of-convex program and apply the convex-concave procedure (CCP) to obtain a heuristic solution. We consider a 1D heat transfer model and a model for 2D target tracking by a drone swarm for numerical studies. Through these simulations, we observe that our proposed approach has a tendency to assign zero data rate to unnecessary sensors indicating that our approach is sparsity-promoting, and an effective sensor selection heuristic.  相似文献   

20.
无线传感器网络中的最大生命期基因路由算法   总被引:2,自引:0,他引:2  
唐伟  郭伟 《软件学报》2010,21(7):1646-1656
无线传感器网络(wireless sensor networks,简称WSNs)由一组低功率且能量受限的传感器节点构成,设计此类网络的一个基本挑战便是最大化网络生命期的问题.在WSNs中,由于邻近传感器节点所收集的数据之间往往具有时空相关性,多采用数据聚合技术作为去除数据冗余、压缩数据大小的有效手段.合理地应用数据聚合技术,可以有效地减少数据传递量,降低网络能耗,从而延长网络生命期.研究了WSNs中结合数据聚合与节点功率控制的优化数据传递技术,提出了一种新的最大化网络生命期的路由算法.该算法采用遗传算法(genetic algorithm,简称GA)最优化数据聚合点的选择,并采用梯度算法进一步优化结果.该算法均衡节点能耗,并最大化网络生命期.仿真结果表明,该算法极大地提高了网络的生命期.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号