首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
函数型数据的特征选择是从庞大的函数信息中选出那些相关性小、代表性强的少部分特征,以简化后期分类器的计算,提高泛化能力.由于特征选择方法用于函数数据分类效果并不理想,文中提出面向函数型数据的结合主成分分析法和最小凸包法的快速特征选择(FFS)方法,可以快速获得稳定的特征子集.此外,考虑到特征之间可能存在相关性,将FFS的结果作为其它方法的初始特征子集,故融合FFS与条件互信息方法.在UCR数据集上的实验证明FFS的有效性,并通过对比实验给出在不同时间代价和分类精度需求下的方法选择策略.  相似文献   

2.
大量的研究表明,临床路径在提高医院运行效率上发挥了极大的作用,但是怎样方便快捷地找到某种疾病的临床路径是一个关键的问题.随着信息技术的发展,数据存储能力以及数据收集能力的提高,各大中型医院都积累了大量的临床诊疗数据,这为数据挖掘技术应用到临床路径发现提供了基础.在这篇文章中,我们把临床路径挖掘问题抽象成频繁序列模式挖掘问题,我们首次提出了临床路径前缀集的概念,并在此基础上提出了基于前缀集的临床路径挖掘算法CPM-PC (Clinical Pathways Mining with Prefix Constraints),这个算法更适用于临床路径挖掘,挖掘出的序列模式有更强的医学意义,这个算法已经被应用到一个真实的数据集上并且取得良好的效果.  相似文献   

3.
在大量的图数据集合中实现目标图的精确匹配是一项相当耗时的任务,为了提高检索效率,频繁子图挖掘逐渐受到广泛的研究。使用频繁子图挖掘可以去除那些与目标图极不相似的图,这样就减小了图的数据集合,从而使目标图检索变得更为快速。FFSM算法虽是一种较为有效的频繁子图挖掘算法,但在应用中存在占用大量存储空间的缺点。本文基于FFSM算法在数据预处理的基础上,将Recomputed Embedding技术整合于FFSM算法,利用改进后的算法建立索引分类。最后将新算法应用于化学虚拟合成系统的数据处理上,实验结果证明相对于FFSM算法其获得目标化合物的速度得到了显著提高。  相似文献   

4.
王静  张建伟  梁海军 《计算机工程与设计》2012,33(4):1514-1517,1552
通过对空中交通运输管理中目前常用的轨迹预测算法的研究比较和分析,提出了利用遗传算法的从历史数据中进行函数挖掘的思想.针对四维轨迹数据特征的分析和传统的单一函数挖掘的局限性,提出了基于基因表达式编程的频繁函数集挖掘的建模方法.该模型方法通过对历史飞行数据进行遗传算法的操作挖掘出数据集中对应的函数关系集合,用较好的函数模型预测未来航迹.以某一航班雷达数据为训练集做实验,结果表明了应用该方法的准确性和可用性.  相似文献   

5.
快速挖掘分布式数据库全局最大频繁项集   总被引:1,自引:0,他引:1  
何波 《控制与决策》2011,26(8):1214-1218
提出一种快速挖掘分布式数据库全局最大频繁项集算法(FMMH).FMMFI算法首先设置了中心节点,并以各个节点构建局部FP-tree,采用挖掘最大频繁项目集算法(DMHA)快速挖掘局部最大频繁项集;然后与中心节点交互以实现数据汇总:最终获得全局最大频繁项集.FMMFI算法采用自上而下的剪枝策略,能大幅减少候选项集,降低通信量.理论分析和实验结果表明,FMMFI算法是有效的.  相似文献   

6.
光滑CHKS孪生支持向量回归机   总被引:1,自引:0,他引:1  
针对目前光滑孪生支持向量回归机(smooth twin support vector regression ,STSVR)中采用的Sigmoid光滑函数逼近精度不高,从而导致算法泛化能力不够理想的问题,引入一种具有更强逼近能力的光滑(chen‐harker‐kanzow‐smale ,CHKS)函数,采用CHKS函数逼近孪生支持向量回归机的不可微项,并用 Newton‐Armijo 算法求解相应的模型,提出了光滑 CHKS 孪生支持向量回归机(smooth CHKS twin support vector regression ,SCTSVR)。不仅从理论上证明了SCTSVR具有严格凸,能满足任意阶光滑和全局收敛的性能,而且在人工数据集和UCI数据集上的实验表明了SCTSVR比STSVR具有更好的回归性能。  相似文献   

7.
邓松  王汝传  任勋益 《计算机科学》2009,36(11):177-181
提出了一种基于网格服务的GEP分布式函数挖掘算法(DFMGEP-GS),它将网格服务与GEP算法相结合,既成功地实现了在网格平台下的GEP函数挖掘,又提高了每个网格节点上GEP算法的全局寻优性;同时证明了在网格环境下由局部数据模型生成全局数据模型的方法.仿真实验结果表明,对于函数类型已知的数据,随着数据集的增大,在成功挖掘到目标函数的情况下,DFMGEP-GS算法的平均耗时最少,而且随着网格节点的增加,DFMGEP-GS的收敛速度最大提高了约17倍;对于函数类型未知的复杂数据集,DFMGEP-GS算法挖掘所得到的模型的误差最小.  相似文献   

8.
基于基因表达式编程的抗噪声数据的函数挖掘方法   总被引:29,自引:0,他引:29  
用传统基因表达式编程(GEP)适应度机制挖掘函数关系容易受到噪声干扰,导致结果失真.为此做了如下探索:①借鉴生物具有的“趋利避害”天性,提出了GEP的“弱适应模型”,以实现在含噪声的数据集上挖掘函数关系;②提出新概念“带内集”、“带外集”并用于划分训练数据集;③设计了在弱适应模型下基于相对误差计算适应度的算法REFA;④用详尽的实验验证了REFA的有效性,当测量数据的噪声率为3.33%时,与传统方法相比,REFA方法的成功率提高了3倍,产生结果的平均相对误差从7.899%降低到2.320%.  相似文献   

9.
郑辉 《信息网络安全》2010,(2):45-46,60
本文在传统的支持向量机(SVM)分类算法中采用核主成分分析(KPCA)对网络数据进行特征抽取,将高维输入特征转化为新的低维特征;并对SVM的核函数进行改进,采用多项式核函数和径向基核函数混合的组合核函数,具有良好的学习能力和外推能力。最后在KDDCUP1999数据集上进行实验,证明了本文方法能够有效的减少学习样本数及训练时间,在网络危险因素识别中具有更高的检测率和更强的泛化能力。  相似文献   

10.
为克服维数灾难和过拟合等传统算法所不可规避的问题,利用支持向量机(Support Vector Machine,SVM)提出基于时序数据时间相关性的核函数修正选择方法,并以真实的二氧化硫(SO2)数据为实验数据验证该方法的有效性.实验结果表明采用时序核函数对测试数据集的拟合效果更好,并对模型泛化能力有一定的提高.  相似文献   

11.
挖掘极大频繁页面集是WEB使用挖掘中的关键应用之一。由于一定时间段的会话中蕴含着用户的访问模式与访问动机,设计一种结点带有驻留时间,类似FP-tree的频繁页面树FPDT-tree结构;利用FPDT-tree结构存储双向驻留时间约束的会话数据库,简化挖掘过程中驻留时间阈值的设置。基于FPDT-tree提出算法MFPSM挖掘会话中的极大频繁页面集,实验结果表明,在时间约束环境中,通过决策者给出合适的时间约束阈值,该算法可以有效地缩短挖掘极大频繁页面集的时间。  相似文献   

12.
基于时间序列的模式表示挖掘频繁子模式   总被引:1,自引:0,他引:1  
论文提出了一种基于时间序列的模式表示挖掘时间序列中频繁子模式的算法(TSFSM)。时间序列的模式表示本身就具有压缩数据、保持时间序列基本形态的功能,并且具有一定的除噪能力。在时间序列的模式表示的基础上挖掘其频繁子模式,可以大大提高挖掘的效率和准确性,达到事半功倍的效果。在该算法中,还使用了一定的剪枝策略,使得算法的时间复杂度进一步降低。并且该算法计算简单,实现方便,可以支持时间序列的动态增长。  相似文献   

13.
对样本数据进行函数挖掘是GEP研究的一个重要内容.传统的GEP算法往往容易陷入局部最优,为了解决这个问题,本文在动态种群生成策略的基础上,提出了基于动态种群的GEP函数挖掘算法(FMGEP-DP).实验表明,无论是在噪声数据不大的情况下,还是对于函数类型未知且复杂的数据,与传统的GEP和GP相比,FMGEP-DP的收敛速度要快,函数挖掘成功率要高.  相似文献   

14.
基于链表数组的最大频繁项集挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
挖掘密集型数据集的全部频繁项集代价高昂,针对该问题,提出一种数据结构链表数组和基于链表数组的最大频繁项集快速生成算法。该方法使用链表数组为每个项目建立事务链表,并且链表的创建过程只需扫描数据库1次。使用深度优先搜索得到所有候选最大频繁项集,利用约束条件缩小搜索空间。使用标准数据集进行验证测试并与其他算法进行比较,实验结果表明,该算法具有较快的挖掘速度。  相似文献   

15.
提出一种基于频繁模式树与最大频繁项集的分布式全局频繁项集挖掘算法BFM-MGFIS,该算法引入子集枚举树以实现有序挖掘与全局剪枝策略,有效地减小了候选数据集且提高了并行性,实验表明本文提出的算法是有效可行的。  相似文献   

16.
陶克  王意洁 《计算机工程》2010,36(18):49-51
针对频繁闭项集挖掘算法中数据结构与处理机制复杂的问题,提出窗口快速滑动的数据流频繁闭项集挖掘算法——MFWSR。算法通过采用紧致的数据结构和简化的判断过程提高时空效率,支持响应不同用户支持度阈值的查询。实验结果表明,在保持已有算法精度的情况下,MFWSR具有更高的时空效率。  相似文献   

17.
面向对象的系统测试需要寻找系统级的测试线索——原子系统功能,其粒度直接影响到测试结果。提出了一种基于带权EDPN迭代的面向对象系统的分割算法,以迭代的方法将面向对象系统分割成不同粒度而功能独立的测试子系统——基原子系统功能,并给出了基原子系统功能的度量标准。在迭代过程中,每次迭代得到的基原子系统功能将被抽象为下一次迭代的带权EDPN子图中的一个数据地点。  相似文献   

18.
Frequent Itemsets Mining has been applied in many data processing applications with remarkable results. Recently, data streams processing is gaining a lot of attention due to its practical applications. Data in data streams are transmitted at high rates and cannot be stored for offline processing making impractical to use traditional data mining approaches (such as Frequent Itemsets Mining) straightforwardly on data streams. In this paper, two single-pass parallel algorithms based on a tree data structure for Frequent Itemsets Mining on data streams are proposed. The presented algorithms employ Landmark and Sliding Window Models for windows handling. In the presented paper, as in other revised papers, if the number of frequent items on data streams is low then the proposed algorithms perform an exact mining process. On the contrary, if the number of frequent patterns is large the mining process is approximate with no false positives produced. Experiments conducted demonstrate that the presented algorithms outperform the processing time of the hardware architectures reported in the state-of-the-art.  相似文献   

19.
发现频繁项目集所关联的事务集是十分有意义的,它能使人们了解频繁项目集是由哪些顾客的购买行为所引起的。文章首先定义了事务树及其相关操作,在此基础上,设计了一种能在挖掘频繁项目集的同时发现项目集所在事务集的算法(FS-TS_DM),该算法具有仅需扫描一次事务数据库的特点。另外,还定义了“分散度”指标,用于指导“真频繁项目集”的挖掘。  相似文献   

20.
为了进一步提高在Spark平台上的频繁模式增长(FP-Growth)算法执行效率,提出一种新的基于Spark的并行FP-Growth算法——BFPG。首先,从频繁模式树(FP-Tree)规模大小和分区计算量对F-List分组策略进行改进,保证每个分区负载总和近似相等;然后,通过创建列表P-List对数据集划分策略进行优化,减少遍历次数,降低时间复杂度。实验结果表明,BFPG算法提高了并行FP-Growth算法挖掘效率,且算法具有良好的扩展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号