首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
针对子宫癌病人住院人数的不断增加和住院期间医生所开药方种类繁多的大数据特点,以及传统关联规则算法存在时间效率低的缺点,采用了结合加权萤火虫优化算法和Apriori算法的关联规则挖掘算法Firefly-Apriorialgorithm(YHC-Apriori算法),萤火虫算法具有快速寻找最优解的特点,可以提升关联规则算法的运行效率.将此算法应用到对子宫癌疾病的用药规律方向进行数据挖掘,使得出的结论更准确并且减少算法运行时间.通过医疗大数据得出的宫颈癌常用药以及用药组合,使医生开的药方更精确,更有效.  相似文献   

2.
对等P2P网络中大数据关键特征挖掘模型仿真   总被引:1,自引:0,他引:1  
在网络数据管理优化问题的研究中,对等P2P为点对点网络通信.由于数据特征受到主观因素的影响较大,无法形成固定的关联特征,使得关键特征定位往往需要进行较大规模的大数据对比,传统的关联规则方法应用到此网络特征搜索过程时,建立的规则往往较为混乱甚至无规则可言,造成数据特征挖掘耗时,无效挖掘行为较多,效率较低.为此,提出利用Apriori算法的对等P2P网络中大数据关键特征挖掘方法.筛选对等p2p网络中大数据特征,选取聚类中心,并针对聚类中心进行关联性计算,删除关联性较差的特征.根据Apriori算法相关理论,对数据进行连接和剪枝处理,建立大数据关键特征挖掘模型.实验结果表明,利用改进算法进行对等p2p网络中大数据关键特征挖掘,能够提高挖掘的准确性,满足p2p网络的实际需求.  相似文献   

3.
《微型机与应用》2016,(15):78-81
提出一种基于统计关联规则的增量决策树分类算法,称为SARMT(Statistic Association Rules Miner Tree),它基于快速决策树(Very Fast Decision Tree,VFDT)技术来挖掘医疗数据。与VFDT不同,改进的SARMT算法不依赖于样本分裂节点的数量。在医疗大数据中,通常缺少大量可用的数据样本,因此SARMT算法更加适用于医疗环境中。将SARMT算法和VFDT算法应用于不同的三个医疗数据集上,实验结果表明在执行时间相当的情况下,SARMT算法在处理医疗数据中有更高的准确率。  相似文献   

4.
提出了集成聚类分析、凸包分析、叠置分析和面积计算等各种地理空间分析与计算方法,实现了一种对在线地理数据进行地理空间关联规则挖掘的算法.该算法对非空间数据的关联规则发现算法Apriori进行了空间化处理,使该算法能够进行空间数据挖掘,发现空间关联规则.实现了在线地理空间数据的空间关联规则挖掘程序,并采用实际数据对算法进行了检验,验证了它们的可用性与有效性,并对挖掘所得的空间关联规则进行了多种可视化表达.从实验效果来看,空间关联规则的支持度和准确度主要依赖数据空间特征,如长度、面积(选择的计算基准)、体积等,发现了一些有趣的空间关联信息.  相似文献   

5.
以提升无线通信系统安全态势感知预测精度为目标,基于机器学习与大数据分析研究无线通信系统安全态势感知预测。采集无线通信系统内的报警信息,通过数据清洗、数据集成等步骤预处理所采集数据,将完成预处理数据存储于数据库中,便于大数据分析技术挖掘关联规则过程中随意调取;利用模糊分区聚类的大数据关联挖掘算法区域分割处理海量关联数据挖掘关联规则,将完成关联规则挖掘的数据利用GA-RBF算法实现安全态势感知预测,并将预测结果发送至态势展示界面。实例分析结果表明,采用该方法感知预测无线通信系统安全态势精度高于99%,可满足无线通信系统安全态势预测需求。  相似文献   

6.
为提高在云存储环境中具有密度高、关联复杂的医学大数据安全保密级别,基于数据分割和等级关联结构,以数据加密的隐私保护算法为支持,提出了一种新的大数据资源的隐私保密模式.从云环境下医疗大数据特征入手,分析云存储中数据隐私保护机制,提出基于分割的云存储数据分级保密模型,大大提高了数据的安全性.研究表明,该模型可以有效保护数据安全和隐私,提高云端数据的安全程度及提高执行效率.  相似文献   

7.
为了提高对智能电网大数据的挖掘效率,提出了基于PCA-MP-BP的智能电网数据融合方法.首先对智能电网大数据技术和智能电网大数据融合技术进行了分析.采用主成分分析方法(PCA)提取出对预测结果有影响的主要特征值,作为BP神经网络的输入;然后提出了一种MapReduce和BP算法相结合的数据融合算法,该算法加快了数据处理...  相似文献   

8.
传统方法对缺失数据进行修复,通常存在填补效果较差、所需时间较长和填补准确度较低等问题.提出一种针对时空大数据的缺失数据流关联修复方法.方法首先利用数据流之间的关联规则创建条件函数依赖,然后对数据流之间的关联相似度进行计算,并通过该相似度结果进一步计算缺失数据的加权值,完成对缺失数据和相应的临界点之间融合情况的检测.最后...  相似文献   

9.
针对大数据环境下基于Can树(canonical order tree)的增量关联规则算法存在树结构空间占用过大、频繁模式挖掘效率不佳以及MapReduce集群并行化性能不足等问题,提出了一种基于粗糙集和归并剪枝方法改进的并行关联规则增量挖掘算法MR-PARIRM(MapReduce-based parallel association rules incremental mining algo-rithm using rough set and merge pruning).首先,设计了一种基于粗糙集的相似项合并策略RS-SIM(rough set based similar item merge)对数据集的相似项进行合并处理,并根据合并后的数据进行Can树构造,从而降低树结构的空间占用;其次,提出了一种归并剪枝策略MPS(merge pruning strategy)对树结构中的传播路径进行修剪合并,通过压缩频繁模式搜索空间来加快频繁项挖掘;最后,通过动态调度策略DSS(dynamic scheduling strategy)对异构式MapReduce集群中的计算任务进行动态调度,实现了负载均衡,有效提升了集群的并行化运算能力.最终的实验仿真结果表明,MR-PARIRM在大数据环境下具有相对较好的性能表现,适用于对大规模数据进行并行化处理.  相似文献   

10.
1 引言数据挖掘是一个从数据中提取出有效的、新颖的、潜在有用的、并能最终被人理解的模式的非平凡过程。数据挖掘可以挖掘出的知识包括关联规则(Association)、特征规则(Characterization)、分类规则(Classification)、聚类规则(Clustering)和趋势规则(Trend)等。数据挖掘是一交叉学科,涉及到诸如统计学、数据库、人工智能、数据可视化等学科。在数据挖掘的研究领域,对于关联规则挖掘的研究开展得比较积极和深入。关联规则挖掘就是要找出隐藏在数据间的相互关系。它展示了数据间未知的依赖关系,根据这种关联性就可从某一数据对象的信息来推断另一数据对象的信息。文[8~13]对关联规则的挖掘作了有意义的研究。R.Agrawal等提出了Aprilri算法和挖掘多层次关联规则的Culmulate,Stratify等算法,J. S.Park等提出了DHP算法,J.Han等提出了面向属性归纳的关联规则挖掘算法ML—T2L1等。  相似文献   

11.
为了提高掌上医疗器械的信息化检索和管理能力,提出基于大数据的掌上医疗器械检索方法,构建掌上医疗器械检索的大数据分布模型,采用有向图模型构建掌上医疗器械信息库的检索节点分布结构模型,在掌上医疗器械信息库库中进行语义关联规则分析,采用字符串的匹配技术,建立掌上医疗器械信息库检索的模糊决策模型,采用大数据融合方法实现掌上医疗器械检索的算法设计,结合自相关特征匹配方法实现掌上医疗器械信息库的语义特征提取,实现掌上医疗器械检索平台的优化设计。仿真结果表明,采用该方法进行掌上医疗器械检索的智能性较好,检索的查准性较高,时延较低。  相似文献   

12.
肖圣龙  陈昕  李卓 《计算机应用》2017,37(10):2794-2798
大数据时代下,社会安全事件呈现出数据多样化、数据量快速递增等特点,社会安全事件的事态与特性分析决策面临巨大的挑战。高效、准确识别社会安全事件中的攻击行为的类型,并为社会安全事件处置决策提供帮助,已经成为国家与网络空间安全领域的关键性问题。针对社会安全事件攻击行为分类,提出一种基于Spark平台的分布式神经网络分类算法(DNNC)。DNNC算法通过提取攻击行为类型的相关属性作为神经网络的输入数据,建立了各属性与攻击类型之间的函数关系并生成分布式神经网络分类模型。实验结果表明,所提出DNNC算法在全球恐怖主义数据库所提供的数据集上,虽然在部分攻击类型上准确率有所下降,但平均准确率比决策树算法提升15.90个百分点,比集成决策树算法提升8.60个百分点。  相似文献   

13.
李孜颖  石振国 《计算机应用》2005,40(10):2923-2928
针对在大数据的处理过程中,对大数据任务的划分和资源分配缺乏合理性的问题,提出一种面向大数据任务的调度方法。该方法首先引入了调度理论用于处理大数据任务,帮助建立合理的大数据任务管理体系并规范大数据任务处理流程;然后,基于大数据任务的本质对数据集进行分析处理,引入决策表进行属性约简,以减小大数据分析任务的数据量和提高大数据分析效率;最后,采用模糊综合评价方法,将模糊综合评价的结果作为对任务调度的依据,以提高任务资源分配合理性。在UCI(University of California Irvine)数据集上进行测试,实验结果表明,该调度算法在平均预测准确度上比朴素贝叶斯(NB)算法高7.42个百分点,比误差反向传播(BP)算法高5.16个百分点,比均方根传递(RMSProp)算法高3.74个百分点。而对于特征数较多的数据集,所提算法在预测精度上较其他算法有显著提高。所提算法在平均调度长度比(SLR)上较HCPFS(Heterogeneous Critcal Path First Synthesis)算法和HIPLTS(Heterogeneous Improved Priority List for Task Scheduling)算法分别下降了12.14%和4.56%,在平均加速比上分别提升了7.14%和42.56%,表明该算法能有效提高大数据系统中任务调度的效率。综合比较分析,所提方法具有较高的预测精度,且高效可靠。  相似文献   

14.
如何解决在创建决策树时出现缺失值是决策树算法在规则提取方面的一个重要难题.讨论了决策树分类算法的基本原理后,对于数据集的数据不完整进行了分析,并给出了缺失值的具体解决方法.在创建决策树的过程中对缺失值进行填充时提出了填充缺失值的解决算法.  相似文献   

15.
许召召  申德荣  聂铁铮  寇月 《软件学报》2022,33(3):1128-1140
随着信息技术以及电子病历和病案在医疗机构的应用,医院数据库产生了大量的医学数据.决策树因其分类精度高、计算速度快,且分类规则简单、易于理解,而被广泛应用于医学数据分析中.然而,医学数据固有的高维特征空间和高度特征冗余等特点,使得传统的决策树在医学数据上的分类精度并不理想.基于此,提出了一种融合信息增益比排序分组和分组进...  相似文献   

16.
李孜颖  石振国 《计算机应用》2020,40(10):2923-2928
针对在大数据的处理过程中,对大数据任务的划分和资源分配缺乏合理性的问题,提出一种面向大数据任务的调度方法。该方法首先引入了调度理论用于处理大数据任务,帮助建立合理的大数据任务管理体系并规范大数据任务处理流程;然后,基于大数据任务的本质对数据集进行分析处理,引入决策表进行属性约简,以减小大数据分析任务的数据量和提高大数据分析效率;最后,采用模糊综合评价方法,将模糊综合评价的结果作为对任务调度的依据,以提高任务资源分配合理性。在UCI(University of California Irvine)数据集上进行测试,实验结果表明,该调度算法在平均预测准确度上比朴素贝叶斯(NB)算法高7.42个百分点,比误差反向传播(BP)算法高5.16个百分点,比均方根传递(RMSProp)算法高3.74个百分点。而对于特征数较多的数据集,所提算法在预测精度上较其他算法有显著提高。所提算法在平均调度长度比(SLR)上较HCPFS(Heterogeneous Critcal Path First Synthesis)算法和HIPLTS(Heterogeneous Improved Priority List for Task Scheduling)算法分别下降了12.14%和4.56%,在平均加速比上分别提升了7.14%和42.56%,表明该算法能有效提高大数据系统中任务调度的效率。综合比较分析,所提方法具有较高的预测精度,且高效可靠。  相似文献   

17.
一种新的不平衡数据学习算法PCBoost   总被引:8,自引:0,他引:8  
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正“扰动”,删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.  相似文献   

18.
为了对电力企业中不同部门的运行数据进行有效的挖掘,提出利用C5.0决策树算法对数据进行深层次分析,为管理人员提供有价值的决策支持.首先,对数据挖掘中先进的C5.0决策树算法原理进行分析,并通过引入信息熵对原有的属性选择方式进行改进,提高了信息增益比率计算的速度.然后根据设计的售电量关系模型进行对电厂管理信息系统中的数据...  相似文献   

19.
传统决策树通过对特征空间的递归划分寻找决策边界,给出特征空间的“硬”划分。但对于处理大数据和复杂模式问题时,这种精确决策边界降低了决策树的泛化能力。为了让决策树算法获得对不精确知识的自动获取,把模糊理论引进了决策树,并在建树过程中,引入神经网络作为决策树叶节点,提出了一种基于神经网络的模糊决策树改进算法。在神经网络模糊决策树中,分类器学习包含两个阶段:第一阶段采用不确定性降低的启发式算法对大数据进行划分,直到节点划分能力低于真实度阈值[ε]停止模糊决策树的增长;第二阶段对该模糊决策树叶节点利用神经网络做具有泛化能力的分类。实验结果表明,相较于传统的分类学习算法,该算法准确率高,对识别大数据和复杂模式的分类问题能够通过结构自适应确定决策树规模。  相似文献   

20.
不确定数据的决策树分类算法   总被引:5,自引:0,他引:5  
李芳  李一媛  王冲 《计算机应用》2009,29(11):3092-3095
经典决策树算法不能处理树构建和分类过程中的不确定数据。针对这一局限,将可用于不确定数据表达的证据理论与决策树分类算法相结合,把决策树分类技术扩展到含有不确定数据的环境中。为避免在决策树构建过程中出现组合爆炸问题,引入新的测量算子和聚集算子,提出了D-S证据理论决策树分类算法。实验结果表明,D-S证据理论决策树分类算法能有效地对不确定数据进行分类,有较好的分类准确度,并能有效避免组合爆炸。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号