首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
为了减少在序列模式挖掘过程中由于重复运行挖掘算法而产生的时空消耗,提出了一种基于频繁序列树的交互式序列模式挖掘算法(ISPM). ISPM算法采用频繁序列树作为序列存储结构,频繁序列树中存储数据库中满足频繁序列树支持度阈值的所有序列模式及其支持度信息.当支持度发生变化时,通过减少本次挖掘所要构造投影数据库的频繁项的数量来缩减投影数据库的规模,从而减少时空消耗.实验结果表明,ISPM算法在时间性能上优于PrefixSpan算法和Inc-Span算法  相似文献   

2.
基于PrefixSpan的序列模式挖掘改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
汪林林  范军 《计算机工程》2009,35(23):56-58,6
针对序列模式挖掘算法PrefixSpan在挖掘过程中需要构造大量投影数据库的不足,提出IPMSP算法,在递归挖掘过程中,通过检查序列数据库关于前缀的前缀,避免对同一频繁前缀模式构造重复投影数据库,同时舍弃对非频繁项的存储并在投影序列数小于最小支持度时停止扫描投影数据库,从而提高PrefixSpan算法的时空性能。实验结果证明,IPMSP算法在时间和空间性能上优于PrefixSpan算法。  相似文献   

3.
门禁管理系统在机场航站楼内的推广应用会产生海量的员工路径数据。为了挖掘员工的频繁路径,提出一种基于路径编码的改进Prefix Span算法。在递归挖掘过程中,只检查投影序列关于前缀的最近后缀,避免产生非法的投影数据库,在投影序列数小于最小支持数时停止扫描。实验结果表明,该算法在时间和空间上比Prefix Span算法优越,能合理有效地挖掘出员工的频繁路径。  相似文献   

4.
类Apriori算法在产生频繁模式时需要多次扫描数据库,并且产生大量的候选集;Free Span和Prefix Span等基于投影数据库的算法在产生频繁模式时会产生大量的投影数据库,占用很多内存空间,这些都造成了很大的冗余。针对以往序列挖掘算法存在的不足,提出一种高效的序列挖掘算法——基于位置信息的序列挖掘算法PBSMA(Position-Based Sequence Mining Algorithm)。PBSMA算法通过记录频繁子序列的位置信息来减少对数据库的扫描,利用位置信息逐渐扩大频繁模式的长度,并且借鉴关联矩阵的思想和Prefix Span算法中前缀的概念,深度优先去寻找更长的关键模式。实验结果证明,无论在时间还是空间上,PBSMA算法都比Prefix Span算法更高效。  相似文献   

5.
基于投影编码的频繁子树挖掘算法   总被引:2,自引:0,他引:2  
频繁子树挖掘被广泛地应用于Web挖掘、生物信息学、XML数据挖掘等领域.提出一种新的算法--PETreeMiner.算法利用序列中无候选产生的技术--前缀投影技术来挖掘频繁子树.在树的先序遍历序列中加入结点的范围属性,在投影过程中进行编码,使得挖掘到的频繁子序列直接对应成一棵频繁子树.实验结果表明算法优于其他算法.  相似文献   

6.
基于位置信息的序列模式挖掘算法*   总被引:1,自引:1,他引:1  
PrefixSpan算法在产生频繁序列模式时会产生大量的投影数据库,其中很多投影数据库是相同的。提出了基于位置信息的序列模式挖掘算法——PVS,该方法通过记录每个已产生投影数据库的位置信息,避免了重复产生相同的投影数据库,从而提高了算法的运行效率。通过实验证明,该算法在处理相似度很高的序列数据时比PrefixSpan算法有效。  相似文献   

7.
为了提高序列模式挖掘的FLWAP-mine算法挖掘海量数据的效率和性能,基于减少数据库访问次数原则和序列模式的Apriori性质对FLWAP-mine算法进行改进,构造FLWAP-tree过程中只扫描一次访问序列数据库,对树进行剪枝删除非频繁事件。模式挖掘过程中采取投影数据库思想,只搜索当前模式的投影树,对构造的投影树判断剪枝,去除非频繁事件,进一步缩小搜索范围。实验表明,当数据量较大或支持度阈值较小时,改进的FLWAP-mine算法比FLWAP-mine算法有更好的性能。  相似文献   

8.
朱颖雯  吉根林 《计算机科学》2007,34(12):175-179
提出了一种高效的最大频繁Embedded子树挖掘算法——CMPETreeMiner。该算法采用先序遍历序列存储树,并将节点的范围属性加入该序列,采用伪投影技术对频繁子序列进行投影,并对投影序列中的每个节点编码。在挖掘带编码的频繁子序列过程中,对频繁子序列进行高效剪枝,得到最大频繁Embedded子树,无需生成所有频繁Embedded子树。实验结果表明,CMPETreeMiner算法是高效可行的。  相似文献   

9.
XML文档是半结构化数据,对其进行频繁路径挖掘可以分为两步:XML文档序列化和序列挖掘阶段. 现有的序列化方式将XML文档表示为Xpath路径集合,其中有大量的节点冗余;序列挖掘阶段采用的类Apriori算法需要多次扫描数据库并产生大量的候选集,采用的PrefixSpan算法会产生大量的投影数据库,占用较大的内存. 针对以往XML频繁路径挖掘算法存在的不足,本文提出一种高效的挖掘算法——基于序列前缀技术的XML频繁路径挖掘算法(PXFP,Prefix-based XML Frequent Path Mining Algorithm). PXFP算法以广度优先方式遍历XML文档树并将每个节点表示为“节点:父节点”的形式,这种序列化的方式减少了节点冗余. 在序列挖掘阶段借鉴PrefixSpan 算法中前缀的概念,但不产生投影数据库,仅得到直接后缀(即前缀的子节点),通过记录频繁子路径的位置信息逐渐扩大频繁模式的长度,位置信息的引入减少了对数据库的扫描. 实验结果表明,PXFP算法取得了比PrefixSpan算法更高的时间和空间效率.  相似文献   

10.
PretixSpan算法解决了类Apriori算法的不足,但产生的投影数据库花费了较多的存储空间及扫描时间.本文基于PretixSpan算法提出PSD算法,舍弃了对非频繁项的存储及对投影序列数小于最小支持数的投影数据库的扫描,减少了不必要的存储空间,提高了查询速度.实验证明,PSD算法比PretixSpan算法具有更好的时空性能.  相似文献   

11.
针对PrefixSpan算法中反复扫描投影数据库寻找局部频繁项并重复构造挖掘大量重复投影数据库的不足,提出一种基于序列末项位置信息的序列模式挖掘算法SPM-LIPT。通过连接2-序列位置信息表(LIPT)找到序列模式的下一项,实现序列模式增长,避免对投影数据库反复扫描;同时通过检查相同末项序列首位置信息表(SLIFPT)进行前向剪枝;消除大量重复投影的构建。最后通过实验证明了算法的有效性。  相似文献   

12.
在基于模板变形的颅面复原方法中,复原的开始阶段需要在数据库中选取与待复原颅骨最为相似的参考颅骨.鉴于基于三维模型的检索算法时间久且颅骨间的差异细微,从而不同于一般三维模型数据库中各模型的差异.因此,已有的三维模型检索算法不适用于颅骨检索.本文提出一种夹角信息和距离信息融合的颅骨轮廓特征提取算法,并在此基础上提出一种能够反映颅骨空域信息的剖面特征提取算法.检索时首先获取三维颅骨的正交投影和深度投影,通过正交投影获取轮廓的角度和距离特征,通过深度投影获得具有空域信息的剖面特征;然后对多个特征进行加权融合搜索到最相似颅骨;最后通过ICP+TPS对检索到的颅骨进行误差评估.实验表明,本算法在保证检索效率的同时,可以准确地应用在颅面复原前期对最相似颅骨的选择上.  相似文献   

13.
Incremental feature extraction is effective for facilitating the analysis of large-scale streaming data. However, most current incremental feature extraction methods are not suitable for processing streaming data with high feature dimensions because only a few methods have low time complexity, which is linear with both the number of samples and features. In addition, feature extraction methods need to improve the performance of further classification. Therefore, incremental feature extraction methods need to be more efficient and effective. Partial least squares (PLS) is known to be an effective dimension reduction technique for classification. However, the application of PLS to streaming data is still an open problem. In this study, we propose a highly efficient and powerful dimension reduction algorithm called incremental PLS (IPLS), which comprises a two-stage extraction process. In the first stage, the PLS target function is adapted so it is incremental by updating the historical mean to extract the leading projection direction. In the second stage, the other projection directions are calculated based on the equivalence between the PLS vectors and the Krylov sequence. We compared the performance of IPLS with other state-of-the-art incremental feature extraction methods such as incremental principal components analysis, incremental maximum margin criterion, and incremental inter-class scatter using real streaming datasets. Our empirical results showed that IPLS performed better than other methods in terms of its efficiency and further classification accuracy.  相似文献   

14.
针对现有恶意程序行为特征检测存在的不足,采用多轨迹检测方法,用文件操作、网络访问、内存资源访问的行为特征构建出三维恶意行为特征库。在构造投影数据库的过程中,结合AC自动机优化频繁序列查询,舍去不满足最小长度的频繁序列,得到改进的数据挖掘算法——Prefixspan-x,并将其应用于动态提取恶意软件行为特征库和阈值匹配,以克服静态反汇编方式获取软件行为轨迹时软件加壳、混淆带来的检测困难。实验结果表明,基于数据挖掘的多轨迹特征检测技术具有较高的准确率和较低的漏报率。  相似文献   

15.
Kernel class-wise locality preserving projection   总被引:3,自引:0,他引:3  
In the recent years, the pattern recognition community paid more attention to a new kind of feature extraction method, the manifold learning methods, which attempt to project the original data into a lower dimensional feature space by preserving the local neighborhood structure. Among them, locality preserving projection (LPP) is one of the most promising feature extraction techniques. However, when LPP is applied to the classification tasks, it shows some limitations, such as the ignorance of the label information. In this paper, we propose a novel local structure based feature extraction method, called class-wise locality preserving projection (CLPP). CLPP utilizes class information to guide the procedure of feature extraction. In CLPP, the local structure of the original data is constructed according to a certain kind of similarity between data points, which takes special consideration of both the local information and the class information. The kernelized (nonlinear) counterpart of this linear feature extractor is also established in the paper. Moreover, a kernel version of CLPP namely Kernel CLPP (KCLPP) is developed through applying the kernel trick to CLPP to increase its performance on nonlinear feature extraction. Experiments on ORL face database and YALE face database are performed to test and evaluate the proposed algorithm.  相似文献   

16.
模式识别的技术核心就是特征提取,而特征融合则是对特征提取方法的强力补充,对于提高特征的识别效率具有重要作用。本文基于稀疏表示方法,将稀疏表示方法用到高维度空间,并利用核方法在高维度空间进行稀疏表示,用其计算核稀疏表示系数,同时研究了核稀疏保持投影算法(Kernel sparsity preserve projection,KSPP)。将KSPP引入到典型相关分析算法(Canonical correlation analysis,CCA),研究了基于核稀疏保持投影的典 型相关分析算法(Kernel sparsity preserve canonical correlation analysis,K-SPCCA)。在多特征手写体数据库和人脸图像数据库上分别证实了本文提出方法的可靠性和有效性 。  相似文献   

17.
为了对存在异常值的图像构建低维线性子空间的描述,提出用鲁棒主元分析(RPCA)的新方法进行掌纹识别。运用图像下抽样方法降低掌纹空间的维数,在低维图像上应用RPCA提取低维的投影向量,然后将训练图像和待识别图像向投影向量上投影得到鲁棒主元特征,计算特征向量间的余弦距离进行掌纹匹配。运用PolyU掌纹图像库进行测试,结果表明,与主元分析(PCA)、独立元分析(ICA)和核主元分析(KPCA)相比,RPCA算法的识别率最高为99%,特征提取和匹配总时间0.032 s,满足了实时系统的要求。  相似文献   

18.
特征加权组稀疏判别投影分析算法   总被引:2,自引:0,他引:2  
近来, 稀疏表示分类算法已经在模式识别和特征提取领域获得了广泛的关注. 受最近提出的稀疏表示判别投影算法启发, 本文提出了一种新的特征加权组稀疏判别投影算法(Feature weighted group sparse classification steered discriminative projection, FWGSDP). 首先, 提出特征加权组稀疏分类算法(Feature weighted group sparsebased classification, FWGSC)进行稀疏系数编码, 该算法采用带特征加权约束的保局性信息, 能够鲁棒地重构给定的输入数据; 其次, 通过类内重构散度最小、类间重构散度最大为目标计算最优投影判别矩阵, 使得输入数据具有最佳的模式分类效果; 最后, 提出迭代重约束稀疏编码方法并结合特征分解操作进行FWGSDP模型高效求解. 在ExYaleB, PIE和AR三个人脸数据库的实验验证了所提算法在普通数据和带噪数据中的分类效果都优于现存的算法.  相似文献   

19.
A new method of feature fusion and its application in image recognition   总被引:9,自引:0,他引:9  
  相似文献   

20.
刘佳新 《计算机工程》2012,38(12):39-41
现有的增量式挖掘算法在支持度发生变化时,需要对序列数据库进行重复挖掘,为减少由此产生的时空消耗,提出一种高效的增量式序列模式挖掘算法。算法采用频繁序列树作为序列存储结构,当序列数据库和最小支持度发生变化时,通过执行更新操作,实现频繁序列树的更新,利用深度优先遍历频繁序列树找到序列数据库中所有的序列模式。实验结果表明,与IncSpan算法和PrefixSpan算法相比,该算法的挖掘效率较高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号