首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
一种有效的量化交易数据相似性搜索方法   总被引:7,自引:0,他引:7  
量化交易数据与一般交易数据的不同之处在于它在各个维上的值是数值型而不是二值型的。研究这种数据的有效的相似性搜索方法是一个重要而具有挑战性的课题,提出了一个新的相似性度量函数Hsim(),这个度量函数可以较好地克服Lp等传统的距离函数在高维空间中的缺点,并能将二值型和数值型数据距离的计算整合到一个统一的框架中去。结合量化交易数据的特点,构造了定义在该函数上的相似性索引结构,并对建立在该索引结构上的相似性查询方法进行了阐述。实验表明,这种搜索方法对量化交易数据的相似性搜索有较高的修剪率,能大大地加快搜索的速度。  相似文献   

2.
高维数据之间的相似性度量问题是高维空间数据挖掘中所面临的问题之一。为了有效解决高维效应给相似性度量带来的种种问题,首先分析传统相似性度量算法,得出其局限性。再通过对传统度量算法进行改进,提出新的Close函数,以弥补传统相似性度量算法应用在高维空间时的不足。提出Close函数后,将其与几种传统的相似性度量算法作比较,得出新算法在高维空间相似性度量方面的优越性。文中最后用Matlab对该函数做了定量分析,实验证明该函数在高维空间中能有效避免噪声和维灾效应的影响。  相似文献   

3.
高维数据中的相似性度量算法的改进   总被引:1,自引:1,他引:0  
高维数据之间的相似性度景问题是高维空间数据挖掘中所面临的问题之一.为了有效解决高维效应给相似性度量带来的种种问题,首先分析传统相似性度量算法,得出其局限性.再通过对传统度最算法进行改进,提出新的Close函数,以弥补传统相似性度量算法应用在高维空间时的不足.提出Close函数后,将其与几种传统的相似性度量算法作比较,得出新算法在高维空间相似性度量方面的优越性.文中最后用Matlab对该函数做了定量分析,实验证明该函数在高维空间中能有效避免噪声和维灾效应的影响.  相似文献   

4.
时间序列数据挖掘是数据挖掘领域的热点之一。相似性度量是时序挖掘领域的基础问题,直接决定了时序数据分类和聚类的效果。针对现有经典的时序数据相似性度量方法共同主成分分析(CPCA)和二维奇异值分解(2DSVD)中存在无法保存时序数据集合中蕴含的某些重要局部特征的问题,提出了基于数据分块方式的CPCA方法和2DSVD方法。该算法首先对原始多变量时间序列数据进行分块处理,然后对分块得到的子矩阵采用CPCA、2DSVD进行特征提取,从而得到代替原始模式的低维新模式,最后在低维空间中利用最小距离法构建分类器对多变量时间序列进行分类。EEG数据分类实验证明了所提方法的有效性。  相似文献   

5.
针对传统的t分布随机近邻嵌入(t-SNE)算法只能处理单一属型数据,不能很好地处理混合属性数据的问题,提出一种扩展的t-SNE降维可视化算法E-t-SNE,用于处理混合属性数据。该方法引入信息熵概念来构建分类属性数据的距离矩阵,采用分类属性数据距离与数值属性数据欧式距离相结合的方式构建混合属性数据距离矩阵,将新的距离矩阵输入t-SNE算法对数据进行降维并在二维空间可视化展示。此外,为验证算法有效性,采用[k]近邻[(kNN)]算法对混合数据降维后的效果进行评价。通过在UCI数据集上的实验表明,该方法在处理混合属性数据方面,不仅具有较好的可视化能力,而且能有效地对不同类别的数据进行降维分簇,提升后续分类器的分类准确率。  相似文献   

6.
基于SAX方法的股票时间序列数据相似性度量方法研究   总被引:2,自引:0,他引:2  
特定数据集上高效的相似性度量方法是目前时间序列数据挖掘领域研究的重点内容之一。针对经过SAX方法降维后的股票数据在相似性度量中缺乏趋势变化的动态信息这一问题,本文提出了一种融合了点距离与模式距离优点的新型相似性度量函数——复合距离函数,并通过实证分析验证了该距离函数在相似性度量中的有效性,为揭示股票数据间相互依赖的规律以及时间序列相似性问题的进一步研究提供了新思路。  相似文献   

7.
高维数据挖掘算法的研究与进展   总被引:1,自引:1,他引:1  
生物信息学和电子商务应用的迅速发展积累了大量高维数据,对高维数据的挖掘变得越来越重要,一般的数据挖掘方法在处理高维数据时会遇到维灾的问题,同时传统相似性度量在高维空间中也变得没有意义。文章从频繁项集挖掘、聚类、分类等三个方面对最新的高维数据挖掘算法的现状进行了综述,对这些算法如何解决高维数据挖掘存在的问题进行研究。  相似文献   

8.
秦彩云 《计算机系统应用》2011,20(6):196-199,168
高维且不独立的样本特征集使分类的质量降低,提出特征权值计算方法,并用于特征加权及特征选择,根据特征的相似性度量函数计算特征的权重,并根据权重排序去除重要性差的特征,用于解决高维样本集的特征降维问题,特征选择结果与主成份分析结果一致。并建立基于保留特征加权的云分类模型,应用于iris数据集和复杂矿石图像的分类,效果良好。  相似文献   

9.
耿德志  徐乾 《计算机仿真》2021,38(2):308-312
为了提高高维混合属性数据挖掘效果,提出基于K-Means聚类算法的高维混合属性数据挖掘方法.通过分析数值型数据和分类型数据相似度,获取高维混合属性数据度量标准,将簇中心点设为簇里点的平均数值或质心,引入最大距离自动生成k值策略与坐标转换策略,优化聚类结果;依据欧几里得距离聚类剩余数据,根据最大间距对应的数据中心点坐标与半径,实现数据集聚类划分;通过判定聚类后数据噪音类别,计算各类别中类异常因子,经过降序排列,挖掘并标记异常数据.仿真结果表明,所提方法对高维混合属性数据具有理想的聚类优势与较好的挖掘稳定性.  相似文献   

10.
学习向量量化(LVQ)和泛化学习向量量化(GLVQ)算法都是采用欧氏距离作为相似性度量函数, 忽视了向量各维属性的数据取值范围,从而不能区分各维属性在分类中的不同作用。针对该问题,使用一种面向特征取值范围的向量相似性度量函数,对GLVQ进行改进,提出了GLVQ-FR算法。使用视频车型分类数据进行改进型GLVQ和LVQ2.1、GLVQ、GRLVQ、GMLVQ等算法的对比实验,结果表明:GLVQ-FR算法在车型分类中具有较高的分类准确性、运算速度和真实生产环境中的可用性。  相似文献   

11.
针对利用最小包围盒(MBB)压缩的移动物体时空轨迹,为了能对其进行有效地聚类,提出了一个基于盒内数据点密度的轨迹间相似性度量公式.首先,把两条轨迹的相似性度量转化为两条轨迹上有时间交叠的MBB之间的相似性度量,这在很大程度上减少了数据存储量.其次,分析两条轨迹上有时间交叠的MBB之间影响相似性的因素:时间持续、空间距离和盒内数据点的密度.剖析这3个因素对轨迹相似性的影响作用,提出了利用MBB压缩的移动物体时空轨迹相似性度量公式.实验证明采用本公式对移动物体时空轨迹进行聚类,可以提高聚类结果有效性指标Dunn的值.  相似文献   

12.
基于广义超曲面树的相似性搜索算法   总被引:2,自引:0,他引:2  
张兆功  李建中 《软件学报》2002,13(10):1969-1976
相似性搜索是数据挖掘的主要领域之一.它在数据库中检索出相似的数据,发现数据间的相似性.它可以应用于图像数据库、空间数据库和时间序列分析.对于欧氏空间(一种特殊的度量空间),相似性搜索算法中基于R-tree的方法,在低维时是高效的,当维数增加时,R-tre e的方法将退化为线性扫描.该现象被称为维数灾难(dimensionality curse),主要原因是存在数据重复.当数据量很大且维数很高时,距离计算和I/O操作将非常费时.提出了度量空间上新的空间分割方法和索引结构rgh-tree,利用数据库的数据对象与很少几个固定参考对象的距离信息进行数据分割和分布,产生一个各节点没有数据重复的平衡树.另外,在rgh-tree的基础上提出了相应的相似性搜索算法,该算法具有较小的I/O代价和距离计算次数,平均复杂性近似为o(n0.58).解决了目前算法存在的一些问题.  相似文献   

13.
为了将传统灰度图像数学形态学扩展到彩色图像,提出一种结合矢量空间模糊相似性的彩色形态学图像处理方法。首先,在RGB彩色空间中利用彩色矢量间的距离和角度定义模糊相似性测度,以刻画与人类视觉感知相一致的彩色相似程度;以上述相似性测度为准则定义彩色空间中任意一组彩色的上确界和下确界;利用中心像素及其结构单元内像素的上确界和下确界构建彩色形态学的基本操作,包括膨胀、腐蚀、开、闭等操作;进一步将提出的彩色形态学操作应用于高分辨率遥感图像,通过实验对比验证其对地物目标的形变和平滑能力,说明其实用性和有效性。  相似文献   

14.
交通流时间序列模式相似性度量法   总被引:1,自引:0,他引:1  
针对交通流时间序列具有高维、高噪声的特性,设计了基于趋势变动、拟合优度和最小距离和百分比原则的联机分割算法用于时间序列维约简。对分割后的时间序列进行5元组分段线性表示,并据此定义五种常见的时间序列形状相似性距离。使用分层聚类算法分析它们在不同的交通流状态辨识中的效果,以此确定交通流时间序列的模式相似性度量方法。以上海南北高架东侧间部分路段固定线圈检测数据为例进行了实证分析,最终确定模式距离与欧氏距离组合方式为交通时序模式相似性度量的最佳方法。  相似文献   

15.
Defining and Comparing Content Measures of Topological Relations   总被引:1,自引:0,他引:1  
This work defines and compares three quantitative content measures of topological relations between spatial objects that consider metric refinements with respect to relative size, distance, and degree of overlapping. These content measures use minimum bounding rectangles (MBRs) as simplified views of spatial objects in order to create an efficient mechanism for characterizing the topological content of spatial configurations. A framework for comparing content measures is presented, which is based on the linear correlation between two similarity rankings: (1) a similarity ranking defined in terms of the distance of content-measure values and (2) a similarity ranking defined in terms of the error of the geometric adjustment between pairs of objects. The linear correlation between similarity rankings is used as indicator of how well the defined content measures characterize topological relations. Such kind of content measures can provide mechanisms for creating efficient methods to describe and access information on the basis of the topological content of spatial configurations.  相似文献   

16.
17.
SAX(symbolic aggregate approximation)是一种符号化的时间序列相似性度量方法,该方法在对时间序列划分时,采用了PAA算法的均值划分,但均分点无法有效描述序列的形态变化,导致序列间对应分段均值相似的情况下,SAX无法有效区分序列之间的相似度.在SAX算法的基础上,提出了基于关键点的SAX改进算法(KP_SAX),该算法的相似性度量公式既可描述时间序列自身数值变化的统计规律,又可描述时间序列形态变化.实验结果表明:KP_SAX虽然部分提高了算法的复杂度,但可在SAX算法无法计算序列相似度的情况下,有效计算各序列间的相似度距离,达到了改进的目的.  相似文献   

18.
现有的基于道路网络对象聚类算法eb-cls采用网络距离描述移动对象间的相似性,没有充分利用对象的时间和空间属性,造成算法不能体现移动对象动态演化的移动模式,频繁更新聚类结果并且聚类精度不理想,执行效率低等问题。针对这些不足,提出基于道路网络的移动对象聚类算法MOBORN(Moving Objects Based on Road Network),该算法引入时空相似系数,考虑了移动对象速度、方向和位置。当移动对象间的时空相似系数达到给定阈值,将其分到同一聚类,并动态维护聚类结果,减少聚类次数。实验结果证明,与eb-cls算法相比,该算法聚类精度保持在97%以上,运行效率提高了40%。  相似文献   

19.
流形学习算法的目的是发现嵌入在高维数据空间中的低维表示,现有的流形学习算法对邻域参数k和噪声比较敏感。针对此问题,文中提出一种流形距离与压缩感知核稀疏投影的局部线性嵌入算法,其核心思想是集成局部线性嵌入算法对高维流形结构数据的降维有效性与压缩感知核稀疏投影的强鉴别性,以实现高效有降噪流形学习。首先,在选择各样本点的近邻域时,采用流形距离代替欧氏距离度量数据间相似度的方法,创建能够正确反映流形内部结构的邻域图,解决以欧氏距离作为相似性度量时对邻域参数的敏感。其次,利用压缩感知核稀疏投影作为从高维观测空间到低维嵌入空间的映射,增强算法的鉴别性。最后,利用Matlab工具对实验数据集进行仿真,进一步验证所提算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号