首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 437 毫秒
1.
医学图像的数据量是相当巨大的,挖掘医学图像中数据的关联关系就需要一种适合挖掘海量数据的挖掘算法。针对基于频繁模式树FP_TREE的关联规则算法在挖掘海量数据时占用大量内存的缺点,提出了一种基于二叉频繁模式树(FP_BTREE)的关联规则算法。该算法采用二叉树存储数据的技术来映射数据库中数据,以减少对数据库的访问次数。而且根据内存具体情况可以先求出先建立的二叉频繁模式树的频繁模式。解决了占用大量内存的缺点,适合挖掘医学图像海量数据集。此算法也为多棵二叉频繁模式树的并行计算打下基础。最后应用此算法提取医学图像数据集中隐含的关联信息。  相似文献   

2.
为了实现网络入侵检测系统中的精确字符串匹配,本文提出了一种基于叶子-附加和二叉搜索树的字符串匹配算法及其实现架构;首先采用叶子-追加算法来对给定的模式集进行处理,以消除模式之间的重叠。然后采用二叉搜索树算法提取叶子模式及其匹配向量来构建二叉搜索树,并根据每个节点的比较结果,通过左遍历或右遍历来实现字符串的精确匹配;为了进一步提高字符串匹配算法的内存效率,提出了级联二叉搜索树;最后給出了实现精确字符串匹配的总体架构和各个功能模块的架构;实验结果表明,本文提出的设计不仅在内存效率和吞吐量方面优于目前先进的设计技术,而且具有灵活的可扩展性。  相似文献   

3.
FP-growth算法是当前挖掘频繁模式的有效算法之一,但FP树的节点占用空间较大,长时间占用内存不释放,挖掘过程中需要产生大量的条件FP树,因而时空效率不理想.提出了一种循环十字链表结构用作存储事务数据库,而不生成FP树,在挖掘频繁项集的过程中,这种链表结构逐步缩小,减少了内存的使用率,通过构建排序的条件频繁模式树挖掘频繁项集.理论分析和实验表明基于这种结构的排序条件频繁模式树挖掘频繁项集具有较好的时空效率.  相似文献   

4.
在挖掘无序树频繁模式的过程中,大多数的算法都是先产生候选者,再进行模式匹配判断它是否为频繁子树.产生候选者本身就需要消耗很大的空间来保存,并且要在复杂的树结构里做匹配也是件难事,它会影响整个挖掘过程的效率.为了尽量避免产生不必要的候选者,提高发现频繁模式的效率,基于对相关算法的研究,引进树投影资料库的概念,并在RootedTreeMiner算法的基础上,采用其模式延伸方法和广度优先标准型式概念,提出子树频繁度、频繁可延伸点串的概念,从而更有效系统地枚举所有的频繁模式树,并给出无序频繁子树挖掘算法FVTreeMiner.经系列实验结果证实了该算法合理、高效,并可以减少一定的内存开销和运行时间开销.  相似文献   

5.
基于压缩FP-树和数组技术的频繁模式挖掘算法   总被引:2,自引:0,他引:2  
FP-growth算法是目前较高效的频繁模式挖掘算法之一.它只需扫描数据库两次,而且不需要产生和测试候选集,避免了这些费时的工作,因此该算法具有较高的效率.然而,FP-growth算法需要递归地生成大量的条件FP-树,这耗费了大量的存储空间和时间.综合已有的几项优势技术,提出了一种频繁模式挖掘算法CFPmine. 一是采用了基于压缩FP-树的约束子树的挖掘方法,避免在挖掘过程中生成条件FP-树,减少内存占用;二是采用基于数组的技术,减少FP-树的遍历时间,提高算法的效率.另外,在算法中还实现了统一的内存管理.实验结果表明,CFPmine是一个高效的频繁模式挖掘算法,其性能优于Apriori,Eclat和FP-growth算法,而需要的内存却少于FP-growth算法.  相似文献   

6.
一种基于模式树的频繁项集快速挖掘算法   总被引:2,自引:0,他引:2       下载免费PDF全文
模式树是目前频繁项集挖掘最常用的数据结构,使用模式树可以有效地将数据库压缩于内存,并在内存中完成对频繁项集的挖掘。为了进一步提高频繁项集挖掘算法的可扩展性,本文对模式树进行了细致的研究,在此基础上提出了一种挖掘频繁项集的新算法,FP-DFS算法。该算法通过对模式树的各种操作简化了对频繁项集的搜索过程。实验表明,该算法对于频繁项集挖掘具有比较高的效率。  相似文献   

7.
基于文档对象模型(DOM)的变电站配置描述语言(SCL)文件解析算法在解析文件时会将整个SCL文档内容在内存中展开,并将文件内容转化为树状节点的结构,占用较大的内容空间。针对该问题,对传统DOM算法进行改进,利用SCL文件的文本节点信息存在冗余的特性,分别使用动态数组、散列表以及二叉平衡查找树3种数据结构为文本节点建立索引并去除冗余,避免相同的信息重复使用内存。实验结果表明,对于普通的SCL文件,使用基于二叉平衡查找树的改进算法能在原算法的基础上减少46%~66%的内存使用;对于较大的SCL文件,使用基于散列表的改进算法能在原算法的基础上减少40%~59.8%的内存使用;2种针对不同大小SCL文件的改进算法,能够在保证SCL文件解析速度的前提下,有效减少DOM算法的内存消耗。  相似文献   

8.
FP-growth算法是目前较高效的频繁模式挖掘算法之一,该算法不产生候选项集,但递归构造“条件FP-Tree”的CPU 开销和存储很大.为此提出了一种频繁模式挖掘算法IFPmine.首先,为了节省内存空间,采用了约束子树的挖掘方法;其次,采用了数组技术来减少树的遍历时间,从而提高算法的效率.实验结果表明,IFP算法是一种较有效的频繁模式挖掘算法,其挖掘效率优于STFP-树算法和FP-树算法,而需要的内存却少于STFP-树和FP-树算法.  相似文献   

9.
现有FP-growth频繁集挖掘算法在处理大数据时存在时空效率不高的问题,且内存的使用随着数据的增加已经无法满足把待挖掘数据压缩存储在单个内存中,为此,提出一种基于MapReduce模型的频繁项集并行挖掘算法。该算法采用一种基于key/value键值对直接扫描value寻找条件模式基的方式,同时通过在原有FP-tree树节点中新增一个带频繁项前缀的域空间来构建一颗新的条件模式树NFP-tree,使得对一项频繁项的条件模式基进行一次建树一次遍历就可以得到相应的频繁项集。对所提出的算法在Hadoop平台进行了验证与分析,实验结果表明该算法效率较传统FP-growth算法平均提高16.6%。  相似文献   

10.
针对已有概率频繁项集挖掘算法采用模式增长的方式构建树时产生大量树节点,导致内存空间占用较大以及发现概率频繁项集效率低等问题,提出了改进的不确定数据频繁模式增长(PUFP-Growth)算法。该算法通过逐条读取不确定事务数据库中数据,构造类似频繁模式树(FP-Tree)的紧凑树结构,同时更新项头表中保存所有尾节点相同项集的期望值的动态数组。当所有事务数据插入到改进的不确定数据频繁模式树(PUFP-Tree)中以后,通过遍历数组得到所有的概率频繁项集。最后通过实验结果和理论分析表明:PUFP-Growth算法可以有效地发现概率频繁项集;与不确定数据频繁模式增长(UF-Growth)算法和压缩的不确定频繁模式挖掘(CUFP-Mine)算法相比,提出的PUFP-Growth算法能够提高不确定数据概率频繁项集挖掘的效率,并且减少了内存空间的使用。  相似文献   

11.
传统的多模式匹配算法是用树型结构的有限自动机实现的 ,它具有很多缺点 .本文提出的多模式匹配算法是基于有序二叉树的多模式匹配算法 .实验证明 ,本文算法不但具有和传统算法相当的查找速度 ,而且构造速度快、内存耗费少 .因此 ,本文提出的算法特别适用于要求动态构造自动机的情况  相似文献   

12.
The National Incident-Based Reporting System (NIBRS) is used by law enforcement to record a detailed picture of crime incidents, including data on offenses, victims and suspected arrestees. Such incident data lends itself to the use of data mining to uncover hidden patterns that can provide meaningful insights to law enforcement and policy makers. In this paper we analyze all homicide data recorded over one year in the NIBRS database, and use classification to predict the relationships between murder victims and the offenders. We evaluate different ways for formulating classification problems for this prediction and compare four classification methods: decision tree, random forest, support vector machine and neural network. Our results show that by setting up binary classification problems to discriminate each type of victim–offender relationship versus all others good classification accuracy can be obtained, especially by the support vector machine method and the random forest approach. Furthermore, our results show that interesting structural insight can be obtain by performing attribute selection and by using transparent decision tree models.  相似文献   

13.
网包分类算法HyperSplit采用了二分查找树结构进行查找, 其决策树深度较大, 规则复制较多, 无法保证算法的时间性能。针对以上问题, 提出了一种基于几何区域分割的网包分类算法MP2S。该算法采用多点切分和冗余覆盖删减的方法压缩决策树深度, 引入区间二分查找并提出新的数据结构来优化算法的时间性能。仿真结果表明, MP2S的平均决策树深度约为HyperSplit的60%, 内存访问次数比HyperSplit降低了约10%。  相似文献   

14.
We present a new data structure for the representation of an integrated circuit layout. It is a modified HV/VH tree using arrays as the primary container in bisector lists and leaf nodes. By grouping and sorting objects within these arrays together with a customized binary search algorithm, our new data structure provides excellent performance in both memory usage and region query speed. Experimental results show that in comparison with the original HV/VH tree, which has been regarded as the best layout data structure to date, the new data structure uses much less memory and can become 30% faster on region query.  相似文献   

15.
哈夫曼树是带权路径长度(WPL)最小的二叉树,通过对哈夫曼算法的研究,提出一种求取哈夫曼树带权路径长度的改进方法,简化运算,有效提高求取WPL的效率和正确性。同时利用哈夫曼算法进行数据压缩,获得明显的压缩效果。  相似文献   

16.
哈夫曼树是带权路径长度(WPL)最小的二叉树,通过对哈夫曼算法的研究,提出一种求取哈夫曼树带权路径长度的改进方法,简化运算.有效提高求取WPL的效率和正确性。同时利用哈夫曼算法进行数据压缩,获得明显的压缩效果。  相似文献   

17.
针对公安执法环境的复杂性和电子证据取证及证据固定的困难,根据公安执法场景中电子证据的功能需求,创建了一类基于区块链技术的公安执法电子证据模型的原型系统。该系统具备分布式、不可篡改、可溯源和安全性高等特点,较好地解决了公安执法电子证据在取证和诉讼中证据的易变性、逻辑混乱和时间不一致等核心问题。该系统将执法过程中涉及举证的数据上链,通过改进实用拜占庭将军容错(practical byzantine fault tolerance, PBFT)共识算法来监测试图篡改执法数据的行为,利用层级监管特性启动备用共识节点以提高整体效率,基于星际文件系统(interplanetary file system, IPFS)对超大文件上链进行数据存储,有利于公安系统在处理大型数据信息时做到及时、安全与高效。最后通过公安局办案大厅执法场景的测试与分析,验证了该系统的可行性。该系统的应用可赋能公安执法电子证据举证效力的提升和司法领域反腐倡廉,并为案件侦破的串并案智能化提供可靠的数据基础。  相似文献   

18.
Dijkstra算法是求解嵌入式GIS系统中最短路径的经典算法,通过对Dijkstra算法进行分析,改变图的存储结构和搜索方法,采用基于矩形限制区域的二叉排序树改进算法,减少了内存存储空间,缩短了查询时间,在一定程度上优化了最短路径的计算过程,实际数据测试也表明了该算法的有效性。  相似文献   

19.
基于有序二叉树的多模式匹配算法   总被引:4,自引:0,他引:4  
一、简介在一个文本串中查找用户指定的模式串在信息抽取和文本编辑中有着广泛的应用。当前,有限状态自动机(DFSA)算法是解决多模式匹配问题的常用方法。DFSA算法在匹配前对模式串集合进行预处理,转换成树型有限状态自动机,然后只需对文本串进行一次扫描就可找出所有模式串,其查找时间复杂度是O(n)。后来,在这个算法的基础上又有一些改进,实现了跳跃式查找。基于树型结构的有限自动机特别适  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号