共查询到20条相似文献,搜索用时 15 毫秒
1.
本文提出了一种针对电信运营商固网http信息的清洗方案,经过现网试点部署验证可到80%以上的清洗率,大大节省了存储空间和网络传输带宽,对运营商开展固网大数据业务具有重要的借鉴意义. 相似文献
2.
随着大数据时代的到来,传统电信运营商也加入到大数据业务开展的庞大阵营中来。固网DPI系统采集到的HTTP等信息为运营商开展对内、对外的大数据业务提供了重要数据支撑。 由于DPI采集信息中含有大量的垃圾数据,在使用数据前对其进行清洗是非常必要的。文章提出一种针对电信运营商固网HTTP信息的清洗方案,经过现网试点部署验证可到80%以上的清洗率,大大节省了存储空间和网络传输带宽,对运营商开展固网大数据业务具有重要的借鉴意义。 相似文献
3.
在定长滑动窗口算法的基础上,应用有限状态机,按照标签的状态,对RFID标签数据进行清洗。算法解决了在清洗算法中重复窗口的问题,通过创建多阶哈希表存储标签读写记录,针对在海量标签数据中存在的多读、冗余读的现象,通过改进滑动窗口的数据清洗方法,解决其在处理效率方面的不足。对阈值等影响清洗算法准确率的相关因素进行仿真,结果表明基于FSM的海量RFID标签数据清洗算法可以有效清洗标签数据,且性能优于SMURF等算法。 相似文献
4.
5.
数据清洗是大数据中一个重要的主题。本文基于Hadoop设计并实现了一个大数据的云清洗系统。通过Map-Reduce计算模型,该系统能够检测并修复数据质量方面的各类问题。该系统包含以下特征:(1)支持数据质量方面各类问题的清洗工作;(2)数据云清洗进度可视化以及参数设置;(3)友好的数据集输入接口以及清洗后的数据集输出接口。该大数据云清洗系统对文本数据和数据库数据均是一个有效且高效的数据清洗系统。 相似文献
6.
大数据资源是企业拥有的最重要的战略资源之一,也是管理层制定远景规划,提高市场竞争力的主要方式和途径,但大数据中会存在错误、冗余和不完整的数据,降低了大数据的总体质量。为此设计一种基于云计算的海量大数据智能清洗系统,改善现有大数据清洗系统在脏数据处理性能上的不足。分析了基于云计算的大数据智能清洗系统的总体框架和硬件构成,数据清洗系统的硬件部分由数据预处理模块、数据云聚类模块、数据识别模块和实体划分模块等部分组成;给出了智能大数据清洗系统的总体软件工作流程,并重点分析大数据空间聚类、相似度计算等关键的数据处理技术。验证结果表明,提出的基于云计算的海量大数据智能清洗系统设计的总体功能性较为完善,在系统性能测试方面也能够保持95%以上的数据查准率和召回率。 相似文献
7.
8.
一个基于领域知识的数据清洗框架 总被引:2,自引:0,他引:2
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题,而成功的数据清洗往往需要领域知识的支持.本文设计了一个基于领域知识的数据清洗框架,它在领域专家的支持下,通过抽样数据获得清洗规则;专家系统引擎利用获得的知识,在整个数据集上进行清洗;它具有自学习能力,在清洗过程中不断的优化清洗规则;它的知识库易扩展,框架通用性较强. 相似文献
9.
《电子技术与软件工程》2016,(9)
为向城市道路交通流预测提供科学的数据支撑,本文提出了基于Python对交通流数据进行清洗。清洗的数据主要包括异常、缺失、冗余数据。清洗方法按照本文提出的清洗规则并结合交通机理知识和城市道路交通流时段特征,实现交通流数据的合理清洗。 相似文献
10.
针对水下采砂大数据中存在信息缺失、冗余、混乱等问题,构建一种K-means聚类与CNN(卷积神经网络)的耦合模型。首先应用最小二乘法得到K-means的聚类阈值,使同类型数据更易于聚类;对数据集进行CNN网络训练,根据各种不同的样本进行网络参数选择,同时实现了CNN智能融合处理;再把从现场收集的大数据输入经过K-means-CNN智能耦合的模式中,将水下采砂大数据分为缺失、冗余、混乱、正常四种类型,并进行标记和数据清洗。试验结果表明,基于K-means-CNN的数据清洗模型,对异常数据的有效清除率超过80%,提高了水下采砂大数据的质量,为后续水下采砂大数据分析打下良好的基础。 相似文献
13.
伊秀中刘运通胡洋陈超 《广播电视网络》2017,(10):38-41
随着大数据时代的到来,数据分析对于公司甚至是一个行业的发展逐步展现出其优越性和重要性。使用开源Kettle工具提供高效、支持异构的数据提取方案,通过新型数据建模完成不仅仅是数据查询,更重要的是大数据分析,能够为公司未来的发展决策提供重要依据。 相似文献
14.
借助大数据相关技术,基于Hadoop架构体系提出一套数据共享平台方案,并提供详细的软件功能方案和硬件部署方案,以期指导运营商IT支撑系统后续类似平台的落地建设。 相似文献
15.
随着科技信息的发展,数据质量问题一直是数据挖掘过程中密切关注的问题.首先,对大数据时代下数据挖掘的基本过程进行阐述,分析数据清洗需要处理的问题,同时说明数据清洗的原理、进行数据清洗的系统框架.最后提出进行数据清洗应当注重的大数据思维和数据清洗发展方向. 相似文献
16.
阐述金融大数据风险预警系统的需求分析,系统的设计和实现,包括系统架构设计、数据处理层设计数据清洗和存储、搭建数据平台Hadoop、后端服务层和前端数据展示层的开发。 相似文献
17.
18.
19.
传统监测方法对网络行为数据的挖掘力度不足,数据处理能力较低导致监测效果不理想,针对此问题研究基于大数据技术的实时网络信息安全监测,基于大数据技术挖掘网络信息行为特征,从中提取代表性外显特征;清洗冗余数据,对网络信息安全异常行为进行判定;设计网络异常行为实时报警模块,对网络信息安全实时状态做出预测。测试结果:此次研究所用监测报警平均时间较传统方法缩短6.1s,其异常行为误报率较传统方法降低8.4%,获得较佳效果。 相似文献