首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
学术腐败已日渐成为社会瞩目的焦点,除了加强科技人员道德自律,还应有相应的技术手段加以监督,由此,该文将信息检索领域中向量空间模型进行了分析改进,并用改进的模型实现了学术论文相似性辨别系统,可供一些机构用来进行学术论文抄袭排查,提高工作效率,根治学术腐败,营造更好的创新环境。  相似文献   

2.
学术腐败已日渐成为社会瞩目的焦点,除了加强科技人员道德自律,还应有相应的技术手段加以监督,由此,该文将信息检索领域中向量空间模型进行了分析改进,并用改进的模型实现了学术论文相似性辨别系统,可供一些机构用来进行学术论文抄袭排查,提高工作效率,根治学术腐败,营造更好的创新环境。  相似文献   

3.
时序数据相似性挖掘算法研究   总被引:4,自引:0,他引:4  
时序数据相似性挖掘是数据挖掘中的重要研究内容.本文针对时序数据进行相似性挖 掘方法的研究,通过对时序数据进行离散傅立叶变换(DFT)将其从时域空间变换到频域空 间,将时序数据映射为多维空间的点,提出一种基于距离的时序数据相似性挖掘算法,并对 某钢铁企业电力负荷时序数据进行仿真实验,实验结果表明了算法的有效性.  相似文献   

4.
为了更好地体现时间序列的形态特征,并探索更适合于较长时间序列之间相似性度量的方法,在动态时间弯曲算法的基础上进行改进,提出了基于分层动态时间弯曲的序列相似性度量方法。对时间序列进行多层次分段,并从分段中均匀抽取相对应的层次分段子序列,然后将层次分段子序列抽象为三维空间的点(反映了分段子序列的均值、长度和趋势)进行相似性度量,最后综合各个层次的相似性度量作为结果。实验表明,在参数设置合理的情况下,此方法能获得较高的序列相似性度量准确度和效率。  相似文献   

5.
郝石磊  王志海  刘海洋 《软件学报》2022,33(5):1817-1832
时间序列分类问题是时间序列数据挖掘中的一项重要任务, 近些年受到了越来越广泛的关注. 该问题的一个重要组成部分就是时间序列间的相似性度量. 在众多相似性度量算法中, 动态时间规整是一种非常有效的算法,目前已经被广泛应用到视频、音频、手写体识别以及生物信息处理等众多领域. 动态时间规整本质上是一种在边界及时间一致性约束下...  相似文献   

6.
XML已成为网上数据交换和存储的标准,然而现有的XML文档模型存在很多问题.综合了数据挖掘和信息检索两方面的技术,对传统的向量空间模型加以扩展,提出一种新的基于语义和支持度的XML向量空间模型并给出其生成算法,该模型抽取文档集的频繁路径作为特征,然后利用XML本身的语义特性,对标签之间作ontology判断.最后,基于该模型提出一种XML近似查询算法,将文档矩阵从改进的VSM空间映射到潜在语义空间,并在转换后的空间获得近似查询结果并排序.对提出的方法进行理论分析和实验验证,得到满意的结果.  相似文献   

7.
吴枫  仲妍  吴泉源  贾焰  杨树强 《软件学报》2009,20(10):2867-2884
相似性搜索在股票交易行情、网络安全、传感器网络等众多领域应用广泛.由于这些领域中产生的数据具有无限的、连续的、快速的、实时的特性,所以需要适合数据流上的在线相似性搜索算法.首先,在具有或不具有全局约束条件下,分别提出了没有索引结构的DTW(dynamic time warping)下限函数LB_seg_WFglobalLB_seg_WF,它们是一种分段DTW技术,能够处理数据流上的非等长序列间在线相似性匹配问题.然后,为了进一步提高LB_seg_WFglobalLB_seg_WF的近似程度,提出了一系列的改进方法.最后,针对流上使用LB_seg_WFglobalLB_seg_WF可能会出现连续失效的情况,分别提出了DTW的下限函数LB_WFglobal(具有全局约束条件)和上限函数UB_WF、下限函数LB_WF(不具有全局约束条件).通过增量方式快速估计DTW,极大地减少了估计DTW的冗余计算量.通过理论分析和统计实验,验证了该方法的有效性.  相似文献   

8.
时序相似性搜索是时序数据分析最基本的操作之一,具有广泛的应用场景.针对现有分布式算法无法应对维度增长、扫描范围过大和相似性计算耗时的问题,提出一种面向键值存储的分布式时序相似性搜索方法KV-Search.首先对时序数据分块,并设计其键值存入键值数据库,解决了时序数据维度高且不断增长的问题;其次,基于切比雪夫距离计算其下...  相似文献   

9.
时间序列数据挖掘是时态数据挖掘的一个重要方面,针对金融时间序列非稳定、非线性的特点,使用EMD方法进行序列趋势的提取,得到了原始时间序列的长期趋势。在此基础上提出了子序列分层匹配算法,首先进行时间序列趋势的粗匹配,在结果集中进一步进行细节匹配,与传统方法相比,提高了相似性匹配的效率,减少了结果集的冗余。  相似文献   

10.
利用反馈的时序模式挖掘算法研究   总被引:2,自引:0,他引:2  
针对时序数据相似性挖掘方法进行研究,提出一种利用反馈的时序数据相似性挖掘算法,由用户赋予各初始范围查询得到的相似序列相应的权值,通过反馈与给定序列叠加产生新的查询序列,再次进行范围查询,获得相似序列,将该算法用于某钢铁企业的电力负荷时序数据,计算结果表明了算法的有效性。  相似文献   

11.
针对动态时间弯曲方法计算时间过长的问题,提出增量动态时间弯曲来度量较长时间序列之间的相似性。首先利用动态时间弯曲方法对历史时间序列数据进行相似性度量,得到相应的历史最优弯曲路径和路径中各元素的累积距离代价。其次,通过逆向弯曲度量方法完成当前序列数据 的相似性度量,结合历史数据信息找到与历史弯曲路径相交且度量时间序列距离为当前最小值的新路径,进而实现增量动态时间弯曲的相似性度量。该方法不仅具有良好的度量质量,还具有较高的时间效率。数值实验表明,对于大部分时间序列数据集,新方法的分类准确率和计算性能要优于经典动态时间弯曲。  相似文献   

12.
13.
在时间序列分类问题中,以Shapelets特征为基础的分类算法具有很高的分类准确率和良好的可解释性,因此,高辨别能力Shapelets的提取已成为时间序列研究领域重要的研究热点之一.对于Shapelets提取的研究已取得了很多优秀的成果,但仍存在一些问题,主要是由于通过遍历所有子序列来获取Shapelets的方式非常耗时.尽管可以采取剪枝策略优化该过程,但往往会损失分类准确率.为此,提出一种基于相似性连接的Shapelets提取方法,该方法舍弃逐一判断子序列分类能力的策略,而是以子序列为单位,通过相似性连接的思想构建时序数据间的相似性向量.对于不同类别的时序数据,计算每一对时序数据间的差异向量,进而得到表示时序数据集中不同类别间差异的候选矩阵,然后根据候选矩阵的数值差异,快速筛选出具有高分类能力的Shapelets集合.在真实数据集上的大量实验表明:相比于现有的Shapelets提取方法,这种相似性连接方法所得到的Shapelets在分类任务中不仅具有很好的时间效率,而且能保证高分类准确率.  相似文献   

14.
为了更加准确地度量两个模型之间的形状差异,提出了一种基于粒子群的模型相似性计算方法。利用面的组成边数来构造面相似度矩阵,通过粒子群算法对该矩阵进行搜索,得到了两个模型之间的最优面匹配序列。根据这个最优面匹配序列,从面相似度矩阵中提取对应的面相似性值。通过累积面之间的相似性来计算模型之间的整体相似性。以此为基础来度量模型之间的差异。实验结果表明:该方法能够准确地度量两个模型之间的相似程度。  相似文献   

15.
为克服维数灾难和过拟合等传统算法所不可规避的问题,利用支持向量机(Support Vector Machine,SVM)提出基于时序数据时间相关性的核函数修正选择方法,并以真实的二氧化硫(SO2)数据为实验数据验证该方法的有效性.实验结果表明采用时序核函数对测试数据集的拟合效果更好,并对模型泛化能力有一定的提高.  相似文献   

16.
17.
古人云“以史为鉴”,说的是吸取历史的经验教训,对未来的情况做出预判或者改变。生活中,亦是存在相似的利用历史数据对未来变化趋势进行预测分析的时间序列问题。本文就时间序列一类的问题进行研究,探讨如何更好地根据历史统计数据,对未来的变化趋势进行预测分析。本文基于神经网络,以气象观测历史数据作为研究的对象,建立了气温变化时序预测模型。本模型利用大数据相关技术对数据进行特征处理,通过深度神经网络,学习特征数据和标签数据之间复杂的非线性关系,从而实现对气温变化的趋势预测。实验结果表明,相较其他模型,本文的模型能够更好地进行时序预测,同时也证明了神经网络用于气象预测的可行性。  相似文献   

18.
动态时间规整(DTW)算法是把时间规整和距离测度计算结合起来的一种非线性规整技术.它通过不断计算两向量的距离来求最优的匹配路径.在采用DTW算法进行音乐旋律匹配时,需要将哼唱信号的音调平移到要对比的目标乐音的音调一致才能够计算出DTW的真正值,用来作为相似度的判断标准.但是正是由于进行了这种移调处理,使得DTW算法计算量大大增加.提出了一种与音调无关的音乐旋律的表示方法,在进行DTW算法时可以避免上下平移音调,减少旋律匹配的运算量.  相似文献   

19.
针对常用方法忽略变量相关性和局部形状特性问题,提出基于加权动态时间弯曲的多元时间序列相似性匹配方法(CPCA-SWDTW).首先,在原加权动态时间弯曲算法基础上,引入形态因子,提出基于形态特征的加权动态时间弯曲算法(SWDTW).然后,提取多元时间序列的主成分作为模式表示,消除变量间的相关性,同时将方差贡献率作为相应主成分的权重.在此基础上,运用SWDTW,度量多元时间序列间的相似度.最后,通过相似性搜索实验表明,CPCA-SWDTW具有较好的准确性和鲁棒性.敏感性分析说明CPCA-SWDTW在一定程度上受到权重函数参数的影响.  相似文献   

20.
时间序列序列模式的相似性研究   总被引:1,自引:1,他引:0  
林殉  李志蜀  周勇 《计算机科学》2011,38(9):245-247
时间序列序列模式相似性的度量是从时间序列中获取时序关联规则的重要环节。一般情况下,距离度量法只能度量相同长度序列模式的相似性。借用动态时间弯曲距离的思想,这种基于非线性弯曲技术的算法可以获得很高的识别、匹配精度。在定义元模式相似性的基础上,定义了序列模式的动态时间弯曲距离,最后用两个不同时间序列进行仿真实验,可以得到不同长度的序列的相似度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号