首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于最大间隙空间映射的高维数据索引技术   总被引:2,自引:0,他引:2  
在基于高维索引技术的相似性查询处理中,通常通过过滤那些不包含任何查询结果的非活动子空间来不断缩减搜索空间.但是在活动子空间中,有些可能根本就不包含任何查询结果,这样的活动子空间被称为假活动子空间.显然,查询处理性能会随着假活动子空间访问次数的增加而下降.这一问题在高维数据情况下将会变得更加严重,实验显示出随着维数的增加,假活动子空间的访问次数也会增加.为了解决这一问题,提出了一种空间映射方法来减少这种不必要的访问.对于一个给定的查询,可以通过在映射空间内进一步精炼该查询来过滤假活动子空间.为了提高映射空间内查询精炼的处理效率,提出了一个最大间隙空间映射策略--MaxGapMapping.基于这种映射方法,设计并实现了一种新的索引结构--MS-tree,给出了索引的构建算法和范围查询处理算法.最后对MS-tree及其他索引结构的性能进行了详细的比较和分析.  相似文献   

2.
SUBCLU高维子空间聚类算法在自底向上搜索最大兴趣子空间类的过程中不断迭代产生中间类,这些中间类的产生消耗了大量时间,针对这一问题,提出改进算法BDFS-SUBCLU,采用一种带回溯的深度优先搜索策略来挖掘最大兴趣子空间中的类,通过这种策略避免了中间类的产生,降低了算法的时间复杂度。同时BDFS-SUBCLU算法在子空间中对核心点增加一种约束,通过这个约束条件在一定程度上避免了聚类过程中相邻的类由于特殊的数据点合为一类的情况。在仿真数据集和真实数据集上的实验结果表明BDFS-SUBCLU算法与SUBCLU算法相比,效率和准确性均有所提高。  相似文献   

3.
随着信息技术的飞速发展和大数据时代的来临,数据呈现出高维性、非线性等复杂特征。对于高维数据来说,在全维空间上往往很难找到反映分布模式的特征区域,而大多数传统聚类算法仅对低维数据具有良好的扩展性。因此,传统聚类算法在处理高维数据的时候,产生的聚类结果可能无法满足现阶段的需求。而子空间聚类算法搜索存在于高维数据子空间中的簇,将数据的原始特征空间分为不同的特征子集,减少不相关特征的影响,保留原数据中的主要特征。通过子空间聚类方法可以发现高维数据中不易展现的信息,并通过可视化技术展现数据属性和维度的内在结构,为高维数据可视分析提供了有效手段。总结了近年来基于子空间聚类的高维数据可视分析方法研究进展,从基于特征选择、基于子空间探索、基于子空间聚类的3种不同方法进行阐述,并对其交互分析方法和应用进行分析,同时对高维数据可视分析方法的未来发展趋势进行了展望。  相似文献   

4.
一种适用于高维数据流的子空间聚类方法   总被引:2,自引:0,他引:2  
颜晓龙  沈鸿 《计算机应用》2007,27(7):1680-1684
受频繁模式挖掘中FP树算法的启发,结合静态高维数据聚类中CLIQUE算法所体现的思想,设计一种树形数据结构DenseGrid树(简称DG树),以记录用于聚类的数据流摘要信息,并通过搜索树中路径从高维数据流中发现存在聚类的低维子空间,从而将高维空间聚类问题转化成构造DG树并利用这种树形数据结构搜索高密网格单元的过程。实验表明,这种聚类方法具有良好的聚类效果和伸缩性。  相似文献   

5.
The similarity search problem has received considerable attention in database research community. In sensor network applications, this problem is even more important due to the imprecision of the sensor hardware, and variation of environmental parameters. Traditional similarity search mechanisms are both improper and inefficient for these highly energy-constrained sensors. A difficulty is that it is hard to predict which sensor has the most similar (or closest) data item such that many or even all sensors need to send their data to the query node for further comparison. In this paper, we propose a similarity search algorithm (SSA), which is a novel framework based on the concept of Hilbert curve over a data-centric storage structure, for efficiently processing similarity search queries in sensor networks. SSA successfully avoids the need of collecting data from all sensors in the network in searching for the most similar data item. The performance study reveals that this mechanism is highly efficient and significantly outperforms previous approaches in processing similarity search queries.  相似文献   

6.
字符串相似性连接是数据质量管理的基本操作,也是数据价值发现的关键步骤。针对目前已有的方法不能满足面向大数据的增量式处理需求的问题,提出一种面向流式数据的增量式字符串相似性连接方法——Inc-Join,并对方法的索引技术进行了优化。该方法以Pass-Join字符串连接算法为基础,首先,采用字符串划分技术将字符串划分成多个互不相交的子串;然后,建立字符串的反向索引列表并将其作为状态;最后,新增数据只需根据状态进行相似性计算,每次连接操作结束后都对状态进行更新。实验结果表明,Inc-Join方法在不影响连接准确率的同时,有效将长、 短字符串重复匹配次数减少为√n(n是批处理方式的匹配次数)。 实验对3种数据集进行处理,发现使用批处理方式进行相似性连接的响应时间是Inc-Join的1至4.7倍,并呈现急剧递增的趋势;而且优化后Inc-Join方法的响应时间最小只占优化前的3/4,并随处理数据的增多所占比例越来越小。同时优化后的Inc-Join不需要保存状态,再一次减小了算法执行的时间和空间开销。  相似文献   

7.
一种高维空间数据的子空间聚类算法   总被引:6,自引:1,他引:6  
王生生  刘大有  曹斌  刘杰 《计算机应用》2005,25(11):2615-2617
传统网格聚类方法由于没有考虑到相邻网格内的数据点对考查网格的影响,存在不能平滑聚类以及聚类边界判断不清的情况。为此提出了一种高维空间数据的子空间聚类算法,扩展了相邻聚类空间。实验结果显示,克服了传统聚类的不平滑现象,使聚类边界得以很好的处理。  相似文献   

8.
王旭  赵曙光 《计算机应用》2014,34(1):179-181
针对高维优化问题难以解决并且优化耗费时间长的问题,提出了一种解决高维优化问题的差分进化算法。将协同进化思想引入到差分进化领域,采用一种由状态观测器和随机分组策略组成的协同进化方案。其中,状态观测器根据搜索状态反馈信息适时地调用随机分组策略重新分组;随机分组策略将高维优化问题分解为若干较低维的子问题,而后分别进化。该方案有效地增强了算法解决高维优化问题的搜索速度和搜索能力。经典型的实例测试,并与其他一流差分进化算法比较,实验结果表明:所提算法能有效地求解不同类型的高维优化问题,在搜索速度方面有明显提升,尤其对可分解的高维优化问题极具竞争力。  相似文献   

9.
人们设计了许多索引以有效地处理高维空间中的近邻查询和区域查询。已经证明,维数较高时利用高维索引处理这两类查询几乎不可能比线性扫描快。提出了一种两层索引以自适应地识别数据集中的聚簇;数据集具有聚簇特性时,用该索引处理邻近查询和区域查询比现有的索引结构快;对其他数据集,利用该索引处理邻近查询和区域查询与线性扫描大致相当。该索引的上层结构将一些参考点组织成一棵二叉树,下层结构是一系列动态哈希表。数据集中的数据点根据它们到参考点的相对距离被哈希到相应的哈希桶中。查询处理时用查询点到参考点的距离进行剪除搜索。实验表明,提出的索引结构具有良好的性能。  相似文献   

10.
提出度量多个集合之间总体差异程度的拓展集合差异度及相关定理,并给出一种新的解决分类属性高维数据聚类问题的CAESD算法。基于拓展集合差异度及拓展集合特征向量,在CABOSFV_C聚类的基础上通过两阶段聚类完成全部聚类过程。采用UCI数据集与K-modes及其改进算法、CABOSFV_C算法进行比较实验,结果表明CAESD算法具有较高的聚类正确率。  相似文献   

11.
为了提高人工蜂群算法求解高维复杂优化问题的能力,提出一种改进人工蜂群算法(artificial bee colony algorithm with attractor,BAABC)。在观察蜂阶段,BAABC算法摒弃轮盘赌选择策略,并通过引进吸引子改变观察蜂的搜索方式。首先,全局最优解波动产生吸引子。然后,观察蜂以吸引子为中心等比例收缩,共同开发同一区域,从而提高了算法的开发能力。实验结果表明,BAABC开发能力显著增强。关于迭代次数和时间,收敛速度都明显提高。在解决高维复杂优化问题方面,BAABC算法优势明显。值得一提的是,BAABC算法的收敛效果与问题维数无关,具有很好的鲁棒性。  相似文献   

12.
由于高维空间中数据点比较稀疏,用传统方法来检测高维空间中的离群点不能达到预期效果。提出了一种基于局部线性嵌入的离群点检测方法(OLLE)。在OLLE降维方法中,建立了一种有效的粗糙集模型,使数据集的下近似中的点保持局部线性结构。同时构造两个权重,使所有样本点保持局部近邻结构,且保证在降维的过程中使离群点远离正常点。最后,在低维空间中,采用基于最小生成树的k-最近邻启发式方法来检测离群点。通过一系列的模拟实验,证明OLLE方法能达到很好的降维效果,并且在低维空间中可以有效地检测出离群点。  相似文献   

13.
传统的天线优化设计需要对大量的参数组合进行电磁仿真后才能得到最优结果,使得天线高维优化设计效率普遍较低。针对该问题,使用在参数空间均匀分布的少量样本及其仿真结果构建初始Kriging模型,优化循环中每代种群由高适应度个体和高离散性个体组成,依据Kriging模型预测的个体响应和不确定性,对进化后的下一代种群进行筛选,选择最优个体执行电磁仿真并更新Kriging模型。利用此方法优化一个6变量E形天线的工作频点,相比同类优化算法,所需的电磁仿真次数可减少80%左右。  相似文献   

14.
针对高维多变量系统,基于等价传递函数理论研究全矩阵结构的PI控制器设计问题.同时考虑对象的稳态增益和响应速度两个因素,提出一种新的等价传递函数参数化方法;利用等价传递函数与被控过程的传递函数逆阵之间的关系,推导出等价传递函数的解析通式;在此基础上,结合经典的PID控制技术进行多变量系统集中式PI控制方法研究.最后通过典型工业过程实例,验证了所提出设计方法的简单性和有效性.  相似文献   

15.
P2P中基于DHT的路由算法不支持范围查询,因此对高维数据查询的支持不是很好.当前P2P处理高维数据的主流方法是降维和空间填充技术,但两者均有很明显的缺点.针对这些问题,提出一种将树型结构——Baton树应用于高维数据检索的方法,操作简单,无须降维,且支持范围查询.经过实验证明,查询的时间复杂度达到O(log2n),与Baton树在检索一维数据时的效率相同.树型结构可以增加子节点数量,通过增加扇出的方式,减少时间开销,理论上可以使时间复杂度降低为O(logmn).  相似文献   

16.
高维函数优化一般是指维数超过100维的函数优化问题,由于"维数灾难"的存在,求解起来十分困难.针对灰狼算法迭代后期收敛速度慢,求解高维函数易陷入局部最优的缺点,在基本灰狼算法中引入3种遗传算子,提出一种遗传-灰狼混合算法(hybrid genetic grey wolf algorithm,HGGWA).混合算法能够充分发挥两种算法各自的优势,提高算法的全局收敛性,针对精英个体的变异操作有效防止算法陷入局部最优值.通过13个标准测试函数和10个高维测试函数验证算法的性能,并将优化结果与PSO、GSA、GWO三种基本算法以及9种改进算法进行比较.仿真结果表明,所提算法在收敛精度方面得到了极大改进,验证了HGGWA算法求解高维函数的有效性.  相似文献   

17.
现有过滤型特征选择算法并未考虑非线性数据的内在结构,从而分类准确率远远低于封装型算法,对此提出一种基于再生核希尔伯特空间映射的高维数据特征选算法。首先,基于分支定界法建立搜索树,并对其进行搜索;然后,基于再生核希尔伯特空间映射分析非线性数据的内部结构;最终,根据数据集的内部结构选择最优的距离计算方法。对比仿真实验结果表明,本方法与封装型特征选择算法具有接近的分类准确率,同时在计算效率上具有明显的优势,适用于大数据分析。  相似文献   

18.
合适的距离度量函数对于聚类结果有重要的影响。针对大规模高维数据集,使用增量式聚类算法进行距离度量的选择分析。SpFCM算法是将大规模数据集分成小样本进行增量分批聚类,可在有限的计算机内存中获得较好的聚类结果。在传统的SpFCM算法的基础上,使用不同的距离度量函数来衡量样本之间的相似性,以得出不同的距离度量对SpFCM算法的影响。在不同的大规模高维数据集中,使用欧氏距离、余弦距离、相关系数距离和扩展的杰卡德距离来计算距离。实验结果表明,后3个距离度量相对于欧氏距离可以很大程度地提高聚类效果,其中相关系数距离可以得到较好的结果,余弦距离和扩展的杰卡德距离效果比较一般。  相似文献   

19.
为实现机车横向平稳性控制,针对机车在固定线路区间往复开行的特点,利用迭代学习策略实现二系悬挂主动控制.以某型高速机车为研究对象,选用一种PD型闭环迭代学习控制器,并通过多目标优化方法编程实现不同轮轨接触状态下车体横向平稳性主动控制参数的自适应调整.基于虚拟激励法,计算该机车线性模型在二系横向悬挂主动控制下的频域平稳性指标,相对于时域仿真计算该方法的计算速度具有明显优势.结果表明:迭代控制参数经5次迭代优化后,车体横向平稳性可快速收敛到稳定值;相较于控制参数固定时,自适应方法能够自动适应机车轮轨接触状态和线路状态且横向性能得到明显改善.此外,考虑到控制系统时滞,该方法在一定时滞范围内仍具有良好控制效果,研究还指出系统时滞应控制在100 ms以内,以防止机车横向动力学性能恶化.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号