首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
2.
强继朋  谢飞  高隽  胡学钢  吴信东 《自动化学报》2014,40(11):2499-2511
基因序列中,许多病毒并不是简单的直接复制自己,而是相邻字符间插入或者删除序列片段,如何从序列数据中检索这些病毒具有重要的研究价值.提出了一个更普遍的问题,带任意长度通配符的模式匹配问题(Pattern matching with arbitrary-length wildcards,PMAW),这里模式中不仅可以有多个通配符约束,而且每个通配符的约束可以是两个整数,也可以从整数到无穷大.给定序列S和带通配符的模式P,目标是从S中检索P的所有出现和每一次出现的匹配位置,并且要求任意两次出现不能共享序列中同一位置.为了有效地解决该问题,设计了两个基于位并行的匹配算法MOTW (Method of ocurrence then window)算法和MWTO (Method of window then ocurrence)算法.同时,MWTO算法进行细微改动就可以满足全局长度约束.实验结果既验证了算法求解问题的正确性,又验证了比相关的模式匹配算法具有更好的时间性能.  相似文献   

3.
项泰宁  郭丹  王海平  胡学钢 《计算机科学》2014,41(9):269-273,310
随着生物信息学、信息检索等领域的发展,带有通配符和长度约束的模式匹配问题引起了广泛关注。该问题扩展了精确模式匹配问题,使匹配更加灵活,同时也增加了匹配的复杂性,极大地提高了非线性匹配算法的复杂度。求解该问题的匹配算法的效率与问题的解空间密切相关,而目前针对该问题的解空间及其特征尚缺乏系统的研究。鉴于此,描述了该问题的解空间,并分析了解空间的可分性。之后,提出解空间划分算法SPLIT,并分析了SPLIT的时间复杂性。实验部分以3个匹配算法为对照,在真实DNA数据集下,使用了5109组模式。实验结果表明,SPLIT不影响匹配解的结构,且可以有效降低非线性匹配算法的时间消耗。  相似文献   

4.
针对目前已有的算法在计算带有可变长度通配符的模式在文本中的出现次数问题时,需要的时间是多项式级别,而且受文本长度、模式长度和通配符间距的影响比较大。提出了一种基于Aho-Corasick自动机的AAI(pAttern mAtching with wIldcards) 算法,计算中采用了动态规划思想和有效的修剪技术。AAI算法的时间复杂度和空间复杂度分别为[O(n+m+α)]和[O(m+B)],其中[n]和[m]分别表示文本和模式的长度,[α]是所有子模式在文本中出现的数目,[B]是模式中通配符间距下限的总和。通过真实数据和人工数据的实验结果表明,AAI算法与同类算法相比具备显著的优势。  相似文献   

5.
基于后缀树的带有通配符的模式匹配研究   总被引:1,自引:1,他引:0  
由于在生物序列分析、文本索引、网络入侵检测等领域的应用需求,带有通配符的模式匹配问题一直是研究的热点。针对已有的研究工作中通配符和长度约束具有较强的局限性问题,研究带有灵活通配符的模式匹配问题,其中通配符可以在模式的任意两子串间出现且可以指定灵活的长度约束。采用非线性数据结构—后缀树,设计了求解模式所有解的完备算法PAS\"I'。预处理阶段采用在线增量式算法构建具有文本先验知识的后缀树,搜索阶段结合动态规划的思想,逐个匹配模式中字符,最终得到完备解。在基因序列上的实验表明,PAST比其他算法具有更好的时间性能。  相似文献   

6.
讨论了带有通配符和长度约束的模式匹配(PMWL)问题,其中模式由子模式序列集组成,两个相邻子模式的间隔在一定长度范围内。针对PMWL问题,已有工作包括设计启发式求解算法和对特殊情况进行完备性分析,然而还需要构建问题的基础求解模型。借鉴约束可满足问题框架,构建了由变量、值域和约束组成的三元组求解模型,对PMWL问题的基本概念和基本性质给出了形式化描述。最后,给出了算法求解PMWL问题的特定条件下的完备解。  相似文献   

7.
8.
安全多方计算(secure multiparty computation, SMPC)是实现分布式计算安全的重要技术,其主要考虑在多个相互独立的实体之间协同完成某项任务的计算,同时要实现输入信息的隐私保护.模式匹配在信息检索、生物工程、人脸识别等领域有着广泛应用,在实现匹配功能的同时保证查询模式及结果的隐私是当下研究的重点.带通配符模式匹配是模式匹配的一种类型,其允许查询模式中可以存在某些通配符信息,因此能够实现某一类信息的批量查询.传统的安全带通配符模式匹配协议中主要涉及数据库方和查询方2个实体,鉴于当下数据共享技术的发展,这种模型难以刻画更多的应用场景.以实际应用出发,首次在三方场景下研究安全带通配符模式匹配协议的构造.首先考虑一个具体的安全三方带通配符模式匹配功能函数,并给出其形式化描述和功能性分析;然后,基于秘密分享(secret sharing)和外包茫然传输协议(outsourced oblivious transfer, OOT)在半诚实敌手模型下给出协议构造,并通过茫然传输扩展(oblivious transfer extension)技术提高协议效率,协议仅需要3轮交互,且计算和通信复杂度为O(k)和O(nm),其中n和m是2个数据提供方的输入长度,k是实现OT扩展协议的基数,其值远小于nm.  相似文献   

9.
王海平  戴玮  郭丹 《计算机科学》2015,42(4):244-248
近年来,随着生物信息学、信息检索等领域的发展,串模式匹配问题被不断扩展.其中,具有代表性的是在模式中引入可变长度的通配符而形成带有通配符的模式匹配(PMWL).该问题定义的灵活性给用户提供了方便,却也造成了求解上的困难.因此,如何在多项式时间内得到更好的匹配解成为研究的焦点.提出了一种启发式的小兵算法.小兵算法通过将PMWL问题转化为路径搜索问题,并借鉴动态剪枝思想,在算法搜索的过程中动态地将不可能的匹配位置剪枝,从而提高解的质量.实验在真实DNA序列上进行,并人工生成了196个模式.结果表明,相比于目前最有效的SAIL算法,小兵算法在绝大多数的尾部有重复字符的模式中可以获得更好的匹配解.  相似文献   

10.
XML查询语言当中,包含通配符*的查询能够方便有效地满足一些特殊查询要求,但在大数据时代下XML文件容量与结构复杂性不断增加,现有支持通配符查询的算法需消耗巨量内存来解析XML,并且在对嵌套通配符处理时需要大量的单路径匹配操作和局部结果的缓存。针对此现状,结合现有经典算法,提出一种新的、能够高效解决小枝模式当中含有通配符*的查询算法-WTwigList。该算法首先对查询模式进行通配符的层次关系处理,减少不必要的通配符匹配,以数据流形式解析XML文件并执行局部的扩展Dewey编码,经过滤操作后得到有序的叶子节点编码列表,在列表中执行匹配操作得到结果;其次在真实和合成数据集上做大量实验,结果表明WTwigList算法与现有算法相比,能够有效提高查询效率,在空间效率上具有一定优势,且能够快速准确地处理查询模式中P C关系。  相似文献   

11.
The hotel and car manufacturing industries share many common points in their sales forecasting. For example, both are greatly affected by the fluctuation of economy, and closely related to the inertia. According to the principle characters of forecasting problem concerning these two kinds of industries, a short-term quantitative sales forecasting model is proposed based on the economic fluctuation analysis and the na?¨ve forecasting technology. The sales time series and its curve are used to construct this model. The relative concepts of the model are presented and corresponding algorithms are brought forward. Firstly, economic fluctuation of products sales is analyzed and the historical patterns of economic fluctuation change are divided. According to the geometric characteristics of a sales curve, the best historical matching for the current status is then found out, which corresponds to the process of activating the historical experiences of a manager. Finally the changing trend of the sales curve in the next period is determined, from which the short-term sales forecasting results can be obtained. The number of scattered guests of a hotel and the short-term sales for cars manufactured by a factory are forecasted by means of the model, which shows satisfactory forecasting accuracy. In fact, the forecasting approach proposed herein is the mathematical representation of the naïve forecasting method that is a kind of regular deduction based on the similarity between historical pattern and current status. Thus, this approach is good at forecasting the time series with the similarity between historical pattern and current status no matter whether the time series is seasonal or not, and gives better forecasting accuracy than ARMA and ANN models.  相似文献   

12.
13.
为了解决海洋数据的多源异构问题,使用户对大量复杂的海洋数据进行有效管理,设计并实现一套海洋信息管理系统。首先介绍系统的体系结构,然后对各模块进行详细的阐述,并对海洋数据进行了详细的分析。针对海洋数据存在数据不一致、数据空缺和数据冗余等问题,使用基于累积变化量的时间序列异常检测方法,有效检测出海洋数据中的异常点,再对异常点进行修正,保证了海洋数据的质量,从而建立一套完善的海洋信息管理系统,使得海洋相关部门的业务流程更加科学化和规范化。  相似文献   

14.
时间序列序列模式的相似性研究   总被引:1,自引:1,他引:0  
林殉  李志蜀  周勇 《计算机科学》2011,38(9):245-247
时间序列序列模式相似性的度量是从时间序列中获取时序关联规则的重要环节。一般情况下,距离度量法只能度量相同长度序列模式的相似性。借用动态时间弯曲距离的思想,这种基于非线性弯曲技术的算法可以获得很高的识别、匹配精度。在定义元模式相似性的基础上,定义了序列模式的动态时间弯曲距离,最后用两个不同时间序列进行仿真实验,可以得到不同长度的序列的相似度。  相似文献   

15.
G. De V. Smit 《Software》1982,12(1):57-66
Three string matching algorithms—straightforward, Knuth-Morris-Pratt and Boyer-Moor—re examined and their time complexities discussed. A comparison of their actual average behaviour is made, based on empirical data presented. It is shown that the Boyel-Moore algorithm is extremely efficient in most cases and that, contrary to the impression one might get from the analytical results, the Knuth-Morris-Pratt algorithm is not significantly better on the average than the straightforward algorithm.  相似文献   

16.
针对精密零件表面瑕疵人工检测工作量大且人为误差较大的状况,将计算机视觉技术用于精密零件表面瑕疵检测分析中,并结合嵌入式系统控制分拣机构对零件进行自动分拣。本文设计的一个基于机器视觉的零件表面瑕疵自动分拣系统,采用图像处理及模式匹配的方法,实现了零件表面瑕疵自动分拣。  相似文献   

17.
基于n阶原子模板的时间序列相似匹配算法   总被引:1,自引:0,他引:1  
本文以时间序列一、二阶原子模式的定义为基础,推导基于n阶原子模式的构造,研究了原子模式之间的偏序相似关系,使得序列能进行细腻的比较,并由此提出了基于模板匹配的算法。实验表明,基于模板匹配的算法与同类方法和传统方法比较在精度上和性能上都有较大优势。  相似文献   

18.
The forecasting process of real-world time series has to deal with especially unexpected values, commonly known as outliers. Outliers in time series can lead to unreliable modeling and poor forecasts. Therefore, the identification of future outlier occurrence is an essential task in time series analysis to reduce the average forecasting error. The main goal of this work is to predict the occurrence of outliers in time series, based on the discovery of motifs. In this sense, motifs will be those pattern sequences preceding certain data marked as anomalous by the proposed metaheuristic in a training set. Once the motifs are discovered, if data to be predicted are preceded by any of them, such data are identified as outliers, and treated separately from the rest of regular data. The forecasting of outlier occurrence has been added as an additional step in an existing time series forecasting algorithm (PSF), which was based on pattern sequence similarities. Robust statistical methods have been used to evaluate the accuracy of the proposed approach regarding the forecasting of both occurrence of outliers and their corresponding values. Finally, the methodology has been tested on six electricity-related time series, in which most of the outliers were properly found and forecasted.  相似文献   

19.
In this article, we describe the process of discovering similar patterns in time series and creating reference models for population groups in a medical domain, and particularly in the field of physiotherapy, using data mining techniques on a set of isokinetic data. The discovered knowledge was evaluated against the expertise of a physician specialized in isokinetic techniques, and applied in the I4 (Intelligent Interpretation of Isokinetic Information) project developed in conjunction with the Spanish National Center for Sports Research and Sciences for muscular diagnosis and rehabilitation, injury prevention, training evaluation and planning, etc., of elite athletes and ordinary people.  相似文献   

20.
数据流是一种与von Neumann计算机全然不同的新的计算模型,它是高度并行化的计算模型,然而由于其本身存在着一些问题,特别是数据通信问题,影响了它的发展。本文提出了几个新的数据流模型;时序通信模型,有限资源条件下的处理器分配模型和一种结合数据流与控制流的机器模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号