共查询到18条相似文献,搜索用时 62 毫秒
1.
为了提高信任进化(MET)算法在大数据环境下的时效性,提出一种基于Spark的并行MET算法——SparkMET.采用主从式架构,由主节点进行变异、交叉、选择过程,从节点计算适应度值.针对数据倾斜问题,提出一种新的数据分区策略——LBP算法,在SparkMET计算适应度值之前,根据合适的分区标签将数据重分区.在Epin... 相似文献
2.
对比序列模式(distinguishing sequential pattern, DSP)指在目标类序列集合中频繁出现,而在非目标类序列集合中不频繁出现的序列.对比序列模式能够描述2个序列集合间的差异,有着广泛的应用,例如:构建序列分类器,识别DNA序列的生物特征,特定人群行为分析.与挖掘满足支持度阈值要求的对比序列模式相比,挖掘对比度top-k对比序列模式能避免用户设置不恰当的支持度阈值.因而,更易于用户使用.但是现有的top-k对比序列模式挖掘算法难以处理大规模序列数据.对此,设计了一种基于Spark的top-k对比序列模式并行挖掘算法,称为SP-kDSP-Miner.此外,为了提高SP-kDSP-Miner的效率,针对Spark结构的特点,设计了候选模式生成策略和若干剪枝策略,以及候选模式对比度的并行计算方法.通过在真实数据集与合成数据集上的实验,验证了SP-kDSP-Miner的有效性、执行效率和可扩展性. 相似文献
3.
高质量的决策依赖于高质量的数据,数据预处理是数据挖掘至关重要的环节.传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop/Hive对海量数据进行预处理,但普遍存在耗时长、效率低、无交互等问题.提出了一种基于Spark的交互式数据预处理系统,系统提供一套通用的数据预处理组件,并支持组件的扩展,数据以电子表格的形式展现,系统记录用户的处理过程并支持撤销重做.本文从数据模型、数据预处理操作、交互式执行引擎以及交互式前端四个方面描述了系统架构.最后使用医疗脑卒中的真实数据对系统进行验证,实验结果表明,系统能够在大数据场景下满足交互式处理需求. 相似文献
4.
《计算机应用与软件》2018,(1)
新一代的分布式数据处理框架大大提升了数据处理任务的效率。然而,由于不同数据处理任务需要处理的数据的特性各不相同,因此难以找到一种统一的方法来优化数据处理任务的性能。针对不同的数据集,需要分析其相应的数据特性,才能充分利用内存和计算资源,优化任务执行效率。研究数据倾斜度这一数据特性,提出一种数据倾斜度的量化方法,基于分布式处理框架Spark,通过结合数据采样分析和源代码语义分析的方法,自动判断当前所处理数据集的数据倾斜度与处理代码的适合程度,并基于判断结果提出相应的代码自动优化方案,从而提升任务的运行效率。通过多个数据处理实验,验证了优化后提高数据分析任务效率的效果。 相似文献
5.
随着数据规模的不断增加,支持向量机(SVM)的并行化设计成为数据挖掘领域的一个研究热点。针对SVM算法训练大规模数据时存在寻优速度慢、内存占用大等问题,提出了一种基于Spark平台的并行支持向量机算法(SP-SVM)。该方法通过调整层叠支持向量机(Cascade SVM)的合并策略和训练结构,并利用Spark分布式计算框架实现;其次,进一步分析并行操作算子的性能,优化算法并行化实现方案,有效克服了层叠模型训练效率低的缺点。实验结果表明,新的并行训练方法在损失较小精度的前提下,在一定程度上减少了训练时间,能够很好地提高模型的学习效率。 相似文献
6.
通过对Spark大数据平台以及Eclat算法的深入分析,提出了基于Spark的Eclat算法(即SPEclat)。针对串行算法在处理大规模数据时出现的不足,该方法在多方面进行改进:为减少候选项集支持度计数带来的损耗,改变了数据的存储方式;将数据按前缀进行分组,并划分到不同的计算节点,压缩数据的搜索空间,实现并行化计算。最终将算法结合Spark云计算平台的优势加以实现。实验表明该算法可在处理海量数据集时高效运行,并且在面对数据量大规模增长的情况下,具备良好的可扩展性。 相似文献
7.
基于RFID路径数据的异常路径检测 总被引:1,自引:0,他引:1
RFID技术在物流、供应链管理等需要跟踪物品流动的领域的广泛使用产生了大量路径数据。路径数据描述了物品在RFID系统中的移动轨迹, 路径数据中每个节点同时包含地点和时间信息, 使路径数据比一般的序列数据更复杂。针对现有的序列数据异常点检测算法不适合处理路径数据的情况, 对路径数据的异常路径检测进行了研究, 提出适用于路径数据的扩展概率后缀树(EPST)模型和一种采用该模型检测异常路径的方法。该模型用来计算每个路径和路径数据集的相似度, 在计算相似度时主要利用了路径数据的“短期记忆”性质, 同时考虑了地点和时间信息对路径数据相似度的不同影响。实验表明提出的算法能够准确地检测出异常路径, 并具有较低的空间复杂度。 相似文献
8.
Apriori和FP-Growth算法是频繁模式挖掘中的经典算法,由于Apriori存在更多缺陷,因此FP-Growth是单机计算环境下比较高效的算法。然而,对于非并行计算在大数据时代遇到的瓶颈,提出一种基于事务中项间联通权重矩阵的负载平衡并行频繁模式增长算法CWBPFP。算法在Spark框架上实现并行计算,数据分组时利用负载均衡策略,存入分组的数据是相应频繁项的编码。每个工作节点将分组数据中每一个事物中项的联通信息存入一个下三角联通权重矩阵中,使用被约束子树来加快每个工作节点挖掘频繁模式时创建条件FP-tree的速度,再用联通权重矩阵避免每次挖掘分组中频繁模式时对条件模式基的第一次扫描。由于联通权重矩阵和被约束子树的结合应用于每一个工作节点的FP-tree挖掘过程,因此提升了并行挖掘FP-tree性能。通过实验表明,所提出的并行算法对大的数据有较高性能和可扩展性。 相似文献
9.
10.
李俊丽 《计算机工程与设计》2021,42(8):2271-2276
针对基于Spark的类别数据互信息的并行计算在数据倾斜情况下会造成某一个或几个reducer负载过重降低集群性能的现状,重新定义数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,提出数据虚拟划分算法DVP.通过将同一个键添加随机前缀更改为几个不同的键,减少单个任务处理过量数据的情况;在一个24节点的Spark集... 相似文献
11.
The quality evaluation of remote sensing data is a bridge for development of sensor and data application.In this paper,we focused on the hyperspectral data acquired by China's self\|developed SPARK satellite launched in December 2016,and evaluated the radiation quality of SPARK 1A data using four objective indicators,namely radiation accuracy,signal\|to\|noise ratio(SNR),information entropy and sharpness.According to the results of each indicator,variance and information entropy show that the main information of SPARK data is concentrated in 81~152 band(542~985 nm),and the average entropy,signal\|to\|noise ratio and definition of this bands are higher than those of other bands,which are 6.28,47.63 dB and 179.5 respectively.The data quality of this spectral data is better than that of other bands,which is beneficial to the spectral identification and spatial feature extraction of different objects.The average SNR of 1~80 band(411~539 nm) was 38.23 dB,and the entropy was 5.28.Image enhancement can be used before processing for the low gray level and smaller gray range of the image in this bands.Because the 153~160 band(1 000~1 105 nm) was uncalibrated,its average SNR is less than 15 dB,and it has the lowest clarity,the spectrum and spatial information are seriously damaged,it is recommended to remove this bands. 相似文献
12.
Inductive logic is a research area in the intersection of machine learning and logic programming, and has been increasingly
applied to data mining. Inductive logic studies learning from examples, within the framework provided by clausal logic. It
provides a uniform and expressive means of representation: examples, background knowledge, and induced theories are all expressed
in first-order logic. Such an expressive representation is computationally expensive, so it is natural to consider improving
the performance of inductive logic data mining using parallelism. We present a parallelization technique for inductive logic,
and implement a parallel version of a core inductive logic programming system: Progol. The technique provides perfect partitioning
of computation and data access and communication requirements are small, so almost linear speedup is readily achieved. However,
we also show why the information flow of the technique permits superlinear speedup over the standard sequential algorithm.
Performance results on several datasets and platforms are reported. The results have wider implications for the design on
parallel and sequential data-mining algorithms.
Received 30 August 2000 / Revised 30 January 2001 / Accepted in revised form 16 May 2001 相似文献
13.
随着宽带互联网的广泛应用,产生了同时针对互联网服务提供商和用户的新型威胁,僵尸网络。僵尸网络通过多类传播和感染程序,构建一个可一对多控制的网络,操控大量僵尸主机发起DDoS攻击、发送垃圾邮件、偷窃敏感数据和钓鱼等恶意行为。本文的目标是基于一种分布式实时处理框架,提出一种分布式的僵尸主机检测算法,该算法能够充分利用网络流量的统计数据IPFIX,在无需深度包解析的情况下,能够识别僵尸主机行为。同时,本文使用该算法实现了IPFIXScanner原型系统,系统的鲁棒性和可扩展性是设计该系统的核心原则。实验表明,IPFIXScanner原型在使用指定僵尸家族样本训练的情况下,对于特定类的僵尸主机能够获得较高的检出率和较低的误报率。在核心交换机上的测试结果表明,IPFIXScanner能够进行分布式的实时检测,加速比接近线性,验证了Spark Streaming引擎在分布式流处理方面的优势,以及用于僵尸主机检测方面的可行性。 相似文献
14.
Chatzis Sotirios P. Kosmopoulos Dimitrios I. Varvarigou Theodora A. 《IEEE transactions on pattern analysis and machine intelligence》2009,31(9):1657-1669
Hidden Markov (chain) models using finite Gaussian mixture models as their hidden state distributions have been successfully applied in sequential data modeling and classification applications. Nevertheless, Gaussian mixture models are well known to be highly intolerant to the presence of untypical data within the fitting data sets used for their estimation. Finite Student's t-mixture models have recently emerged as a heavier-tailed, robust alternative to Gaussian mixture models, overcoming these hurdles. To exploit these merits of Student's t-mixture models in the context of a sequential data modeling setting, we introduce, in this paper, a novel hidden Markov model where the hidden state distributions are considered to be finite mixtures of multivariate Student's t-densities. We derive an algorithm for the model parameters estimation under a maximum likelihood framework, assuming full, diagonal, and factor-analyzed covariance matrices. The advantages of the proposed model over conventional approaches are experimentally demonstrated through a series of sequential data modeling applications. 相似文献
15.
文章提出了一种使用微生物遗传特征来进行基因序列聚类的方法。该方法首先从每条基因序列中划分出若干个等差长度的采样片断,然后利用各采样片断的遗传特征DNA(G+C)mol%值来作为基因序列聚类的依据。试验结果表明该方法是可行的,并且具有较好的聚类质量。 相似文献
16.
移动数据业务是电信行业近年来最热门的领域,但一直缺乏比较好的端到端的业务测量和监控手段。本文介绍了移动数据业务质量评估系统的设计思路和系统实现原理,并进一步介绍了系统实现的实际情况。 相似文献
17.
目前已有的不完整数据填充方法大多局限于单一类型的缺失变量,对大规模数据的填充效果相对弱势.为了解决真实大数据中混合类型变量的缺失问题,本文提出了一个新的模型——SXGBI(Spark-based e Xtreme Gradient Boosting Imputation),其适应于连续型和分类型两种缺失变量并存的不完整数据填充,同时具备快速处理大数据的泛化能力.该方法通过对集成学习方法 XGBoost的改进,将多种补全算法结合在一起,构建了一个集成学习器,并结合Spark分布式计算框架进行了并行化设计,能较好地运行于Spark分布式集群上.实验表明,随着缺失率的增长,SXGBI在RMSE、PFC和F1几项评价指标上都取得了比实验中其它填充方法更好的填充结果.此外,它还可以有效地运用在大规模的数据集上. 相似文献
18.
由于船舶自动识别系统(Automatic Identification System, AIS)的差异性以及各数据提供商接收信号的硬件设施、存储设备以及处理方式的不同,导致各个数据源提供的AIS数据质量参差不齐。为了能够合理鉴别数据的优劣、及时发现AIS数据源存在的问题并对其进行有针对性的数据处理,为数据采购提供依据,故首次提出通过对完整性、连续性、时效性这三个重点指标来进行AIS数据评价,并提出综合质量评分算法结合三个重点评价指标得出AIS数据综合质量评分。最终,通过对比卫星AIS数据与岸基AIS数据的数据质量差异和数据可视化分析来验证算法的准确性。 相似文献