首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
基于整体和局部相似性的序列聚类算法   总被引:1,自引:0,他引:1  
戴东波  汤春蕾  熊赟 《软件学报》2010,21(4):702-717
现有的很多序列聚类算法是基于“局部特征可以表征整个序列”的假设来进行的,即不区分实际应用中序列的整体相似性和局部相似性.这对存在保守子模式的序列,如DNA和蛋白质序列是适用的,但对一些注重整体序列相似性的应用领域,如:在交易数据库中用户购买行为的比较,时间序列数据中全局模式的匹配等,由于难以产生频繁子模式,用基于全局相似性的度量方法进行聚类显得更为合理.此外,在基于局部相似性的序列聚类算法中,选取的局部子模式表征序列的能力也有待进一步提高.由此,针对不同应用领域,分别提出基于整体相似性的序列聚类算法GSClu和基于局部相似性的序列聚类算法LSClu.GSClu和LSClu分别利用带剪枝策略的二分k均值算法和基于有gap约束的强区分度子模式方法对各自领域的序列数据进行聚类.实验采用交易序列数据和蛋白质序列数据,实验结果表明,GSClu和LSClu对各自领域的序列数据具有较快的处理速度和良好的聚类质量.  相似文献   

2.
数据挖掘中的聚类分析对发现数据中隐含的类别和分布有着重要的应用。传统的K—Means聚类算法在给出簇数目的条件下能够对数据进行较好的聚类,算法采用批量模式进行学习,在每一趟数据扫描结束后更新簇中心。序列模式是另外一种学习方式,它每扫描一条记录就更新簇中心。本文提出并实现了基于序列模式的K—Means算法,并与采用批量模式的K—Means算法进行了比较。  相似文献   

3.
对较大数据集挖掘序列模式时,可能会因产生的大量候选集等原因无法装入内存而难以进行.文中提出基于分区的序列模式挖掘算法.以期克服有限存储问题,为并行处理及分布式处理做好基础.此外,当给出的分区数固定时,不同的分区性能可能存在较大差异,通过聚类方法对数据集预处理,以得到可以产生较少局部频繁宁列的特定分区,最终得到较少的全局候选序列以减少第二遍扫描时间.理论分析和实验表明,所提出的方法可比普通分区方法得到更加优化的分区,从而效率更高.  相似文献   

4.
提出了一种编码方案,同时聚类正共调控基因和负共调控基因.基于这种编码方式,两个正共调控或负共调控的基因都具有相同的编码,因此被聚集到同一个共调控基因类中.进一步提出了一个基于这种编码方案进行最大子空间共调控基因聚类的新算法及一些新的相关削减策略.一个最大子空间共调控基因聚类聚集了某个条件序列上的一组共调控基因,而且不被其他的子空间共调控基因聚类包含.从多方面分析了该算法的性能,并将其用于白血病和酵母细胞的真实表达数据集及人造数据集聚类.理论分析和实验结果都表明,相对于已有的基于模式/趋势的聚类算法,该算法能发现更多具有生物意义的共调控基因聚类,并且性能优于目前的共调控基因聚类算法.  相似文献   

5.
基于闭合有间隔频繁子序列的点击流聚类   总被引:2,自引:0,他引:2       下载免费PDF全文
马超  沈微 《计算机工程》2010,36(23):72-75
对网站日志文件中记录的点击流序列聚类可以发现用户使用模式,从而对用户归类。而传统聚类方法面临着难以提取点击流中有代表性的特征向量以及点击流及其特征向量存在数据稀疏性的问题。针对上述情况,提出一种基于闭合有间隔频繁子序列模式挖掘的点击流聚类方法。该方法从点击流中提取子序列模式的频繁支持度,构建特征向量,利用基于双向映射欧氏距离的模糊距离度量判断向量间相似度,增强BIRCH聚类算法对点击流数据的聚类效果。  相似文献   

6.
目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用WordNet结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。  相似文献   

7.
高维分类属性的子空间聚类算法   总被引:3,自引:0,他引:3  
高维分类数据的处理一直是数据挖掘研究所面临的巨大挑战.传统聚类算法主要针对低雏连续性数据的聚类,难以处理高维分类属性数据集.本文提出一种处理高维分类数据集的子空间聚类算法(FP-Tree-based SUBspace clustering algorithm,FPSUB),利用频繁模式树将聚类问题转化为寻找属性值的频繁模式发现问题,得到的频繁模式即候选子空间,然后基于这些子空间进行聚类.针对真实数据集的实验结果表明,FPSUB算法比其他算法具有更高的准确度.  相似文献   

8.
SUDBC:一种基于空间单元密度的快速聚类算法   总被引:3,自引:0,他引:3  
随着数据规模越来越大,要求聚类算法有很高的执行效率,很好的扩展性,能发现任意形状的聚类以及对噪音数据的不敏感性.提出了一种基于空间单元密度的快速聚类算法SUDBC,该算法首先将被聚类的数据划分成若干个空间单元,然后基于空间单元密度将密度超过给定阈值的邻居单元合并为一个类.实验结果验证了SUDBC算法具有处理任意形状的数据和对噪音数据不敏感的特点.  相似文献   

9.
提出了一种基于特征映射的互联网频繁模式识别算法,采用特征映射与聚类相结合的方法,解决了SPADE算法不能反映类信息的问题与大量数据聚类时的效率低下,同时,提出了比较合理的频繁模式定量评价体系,从而完成了识别系统的整体设计,对于处理互联网海量用户数据有着相当重要的作用,同时,可以根据此算法提供个性化推荐等服务来提升用户体验.  相似文献   

10.
王树怡  董东 《计算机科学》2017,44(Z6):486-490
在软件开发过程中,开发人员经常需要遵循特定的API用法模式,而这些用法模式几乎没有相关文档作为参考。为了挖掘API用法模式,提出基于聚类和频繁闭合偏序序列的API用法模式挖掘途径。通过抽象语法树对源代码进行解析,对提取API方法调用序列进行层次聚类,最后使用频繁闭合偏序挖掘算法DFP进行API用法模式的挖掘。实验结果表明,在相同的数据集上,与SPADE算法和BIDE算法相比,所得候选API用法模式集更加精简。  相似文献   

11.
宏基因组序列组装在计算和内存上面临着巨大挑战。SpaRC(Spark Reads Clustering)是基于Apache Spark的宏基因组序列片段聚类算法,为来自下一代测序技术的数十亿测序片段聚类提供了一种可扩展的解决方案。但是,SpaRC算法参数的设置是一项非常具有挑战性的工作。SpaRC算法拥有许多对算法性能有着很大影响的超参数,选择合适的超参数集对于充分发挥SpaRC算法的性能来说是至关重要的。为了提高SpaRC算法的性能,探索了一种基于树状结构Parzen估计方法(Tree Parzen Estimator,TPE)的超参数优化方法,其能够利用先验知识高效地调节参数,并通过减少计算任务加速寻找最优参数,达到最佳聚类效果,从而避免昂贵的参数探索。对长序列片段(PacBio)和短序列片段(CAMI2)进行实验,结果表明,该方法在改善SpaRC算法性能方面有着良好的效果。  相似文献   

12.
Mining Navigation Patterns Using a Sequence Alignment Method   总被引:2,自引:0,他引:2  
In this article, a new method is illustrated for mining navigation patterns on a web site. Instead of clustering patterns by means of a Euclidean distance measure, in this approach users are partitioned into clusters using a non-Euclidean distance measure called the Sequence Alignment Method (SAM). This method partitions navigation patterns according to the order in which web pages are requested and handles the problem of clustering sequences of different lengths. The performance of the algorithm is compared with the results of a method based on Euclidean distance measures. SAM is validated by means of user-traffic data of two different web sites. Empirical results show that SAM identifies sequences with similar behavioral patterns not only with regard to content, but also considering the order of pages visited in a sequence.  相似文献   

13.
王映辉 《计算机工程》2009,35(10):121-125
针对传统的分簇方法很少考虑安全因素,或者只考虑安全性而忽视对网络性能影响的问题,提出一种基于信任关系的分簇方法。该方法结合人类记忆的扩散激发模型的思想,能够根据有限的局部信息,自动地对整个网络进行分割,在提高AdHoc网络性能的同时,还可提高其安全性。实验结果表明,该分簇方法在精确度方面与集中式的分簇方法非常接近。  相似文献   

14.
基于密度的聚类算法是聚类分析算法中的一种主要技术,它对空间数据库聚类有着很好的性能,然而,对大规模数据库聚类时,DBSCAN算法需要大量的内存支持并伴随着I/O开销.提出了一种带有矢量性的密度聚类算法,具有约束聚类方向,减少候选点的特点.以地理信息系统(GIS)为应用背景,成功应用于高速公路选线,得到了良好的效果.  相似文献   

15.
This paper presents an unsupervised structural damage pattern recognition approach based on the fuzzy clustering and the artificial immune pattern recognition (AIPR). The fuzzy clustering technique is used to initialize the pattern representative (memory cell) for each data pattern and cluster training data into a specified number of patterns. To improve the quality of memory cells, the artificial immune pattern recognition method based on immune learning mechanisms is employed to evolve memory cells. The presented hybrid immune model (combined with fuzzy clustering and the artificial immune pattern recognition) has been tested using a benchmark structure proposed by the IASC–ASCE (International Association for Structural Control–American Society of Civil Engineers) Structural Health Monitoring Task Group. The test results show the feasibility of using the hybrid AIPR (HAIPR) method for the unsupervised structural damage pattern recognition.  相似文献   

16.
CASS is a task management system that provides facilities for automatic grain-size optimization and task scheduling of parallel programs on distributed memory parallel architectures. The heart of CASS is a clustering module that partitions the tasks of a program into clusters that match the granularity of the target machine. This paper describes the clustering algorithms used by CASS and compares them with the best known algorithms reported in the literature, namely the PY algorithm (for clustering with task duplication) and the DSC algorithm (for clustering with no task duplication). It is shown that the clustering algorithms used by CASS outperform both the PY and DSC algorithms in terms of both speed and solution quality.  相似文献   

17.
This paper details research carried out into the clustering of large market research data sets. The aim of the analysis was to find clusters of vectors in the data with maximum similarity expressed in the form of identical question answers. A novel paradigm (the interrogative memory structure) has been developed and compared with current unsupervised artificial neural network and statistical clustering techniques. The interrogative memory structure is a bi-directional network, which, when utilised with the controlling algorithm detailed in this paper, has produced encouraging results with initial tests. A detailed account of the paradigm is given along with an analysis of the initial results.  相似文献   

18.
Verification has grown to dominate the cost of electronic system design, consuming about 60% of design effort. Among several verification techniques, logic simulation remains the major verification technique. Speeding up logic simulation results in great savings and shorter time-to-market. We parallelize logic simulation using Graphics Processing Units (GPUs). In the past, GPUs were special-purpose application accelerators, suitable only for conventional graphics applications. The new generations of GPU architecture provide easier programmability and increased generality while maintaining the tremendous memory bandwidth and computational power of traditional GPUs. We develop a parallel cycle-based logic simulation algorithm that uses And Inverter Graphs (AIGs) as design representations. AIGs have proven to be an effective representation for various design automation applications, and we obtain similar benefits for speeding up logic simulation. We develop two clustering algorithms that partition the gates in the designs into independent blocks. Our algorithms exploit the massively parallel GPU architecture featuring thousands of concurrent threads, fast memory, and memory coalescing for optimizations. We demonstrate up-to 5x and 21x speedups on several benchmarks using our simulation system with the first and second clustering algorithms, respectively. Our work ultimately results in significant reduction in the overall design cycle.  相似文献   

19.
The relationship between immunological memory and a class of associative memories known as sparse distributed memories (SDM) is well known. This paper proposes a new model for clustering non-stationary data based on a combination of salient features from the two metaphors. The resulting system embodies the important principles of both types of memory; it is self-organising, robust, scalable, dynamic and can perform anomaly detection, and is shown to be a more faithful model of the biological system than a standard SDM. The model is first applied to clustering static benchmark data-sets, and is shown to outperform another system based on immunological principles. It is then applied to clustering non-stationary data-sets with promising results. The system is also shown to be scalable therefore is of potential for clustering real-world data-sets.  相似文献   

20.
提出一种基于开尔文波理论和粒子系统技术的船行波模拟方法,采用开尔文波理论构建二维船行波模型,使用粒子系统技术对船行波的三维模型进行动态建模,从实际观察出发,根据艏浪、艉浪的形状特征、作用范围和浪花的随机运动特性,给出艏浪、艉浪的粒子系统建模方法。实验证明该方法能快速逼真地模拟舰船航行时的航迹。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号