排序方式: 共有94条查询结果,搜索用时 15 毫秒
1.
2.
序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing). 相似文献
3.
上海医保系统基础建设实施已基本完成,全面覆盖业务领域,积累了丰富的历史数据.但由于数据规划不足,导致数据资源利用率不高,难以有效提供决策支持.数据仓库是提供决策支持的核心,因此,结合元数据管理和ETL(Extraction Transformation Loading)技术,构建了一个医保基金风险防控数据仓库,实现了医保异构数据源的有效整合,为医保基金风险管理提供了良好的数据基础.系统通过在上海医保基金风险管理中的实际应用,取得了良好效果. 相似文献
4.
利用数据仓库的集成管理能力来辅助医保业务分析是当前我国医疗保障基金管理的研究热点。由于数据仓库构建过程中的每一个环节都可能发生变化,因此一个灵活的元数据管理系统是这个过程不可缺少的。基于一个医保基金风险防控平台数据仓库的构建过程,提出一套适应该平台变化需求的元数据管理解决方案,深化对医保数据仓库中数据的理解,从而完善医保基金的管理和改善数据质量。 相似文献
5.
6.
7.
基于商品分类信息的关联规则聚类 总被引:11,自引:0,他引:11
关联规则挖掘经常产生大量的规则,为了帮助用户做探索式分析,需要对规则进行有效的组织。聚类是一种有效的组织方法,已有的规则聚类方法在计算规则间距离时都需要扫描原始数据集,效率很低,而且聚类结果是固定数目的簇,不利于探索式分析.针对这些问题,提出了一种新的方法,它基于商品分类信息度量规则间的距离,避免了耗时的原始数据集扫描;然后用OPTICS聚类算法产生便于探索式分析的聚类结构。最后用某个零售业公司的实际交易数据做了实验,并通过可视化工具演示了聚类效果,实验结果表明此方法是实用有效的。 相似文献
8.
一种有效的量化交易数据相似性搜索方法 总被引:7,自引:0,他引:7
量化交易数据与一般交易数据的不同之处在于它在各个维上的值是数值型而不是二值型的。研究这种数据的有效的相似性搜索方法是一个重要而具有挑战性的课题,提出了一个新的相似性度量函数Hsim(),这个度量函数可以较好地克服Lp等传统的距离函数在高维空间中的缺点,并能将二值型和数值型数据距离的计算整合到一个统一的框架中去。结合量化交易数据的特点,构造了定义在该函数上的相似性索引结构,并对建立在该索引结构上的相似性查询方法进行了阐述。实验表明,这种搜索方法对量化交易数据的相似性搜索有较高的修剪率,能大大地加快搜索的速度。 相似文献
9.
IncLOF:动态环境下局部异常的增量挖掘算法 总被引:12,自引:1,他引:12
异常检测是数据挖掘领域研究的最基本的问题之一,它在欺诈甄别、贷款审批、气象预报、客户分类等方面有广泛的应用,以前的异常检测算法只适应于静态环境,在数据更新时需要进行重新计算,在基于密度的局部异常检测算法LOF的基础上,提出一种在动态环境下局部异常挖掘的增量算法IncLOF,当数据库中的数据更新时,只对受到影响的点进行重新计算,这样可以大大提高异常的挖掘速度,实验表明,在动态环境下IncLOF的运行时间远远小于LOF的运行时间,并且用户定义的邻域中的最小对象个数与记录数之比越小,效果越明显. 相似文献
10.
基于BP神经网络的路口短时交通流量预测方法 总被引:8,自引:0,他引:8
交叉路口是一个城市交通的重要组成部分,其各方向的交通流量预测更是该城市智能交通系统中的重中之重,本文提出一种基干BP神经网络预测路口短时交通流量的方法,该方法将路口其他非预测方向和交通信号配时方案对流量预测的影响因素考虑在内。 相似文献