首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文提出了一种针对电信运营商固网http信息的清洗方案,经过现网试点部署验证可到80%以上的清洗率,大大节省了存储空间和网络传输带宽,对运营商开展固网大数据业务具有重要的借鉴意义.  相似文献   

2.
随着大数据时代的到来,传统电信运营商也加入到大数据业务开展的庞大阵营中来。固网DPI系统采集到的HTTP等信息为运营商开展对内、对外的大数据业务提供了重要数据支撑。 由于DPI采集信息中含有大量的垃圾数据,在使用数据前对其进行清洗是非常必要的。文章提出一种针对电信运营商固网HTTP信息的清洗方案,经过现网试点部署验证可到80%以上的清洗率,大大节省了存储空间和网络传输带宽,对运营商开展固网大数据业务具有重要的借鉴意义。  相似文献   

3.
郭雷勇  李宇 《通信技术》2020,(2):301-311
在定长滑动窗口算法的基础上,应用有限状态机,按照标签的状态,对RFID标签数据进行清洗。算法解决了在清洗算法中重复窗口的问题,通过创建多阶哈希表存储标签读写记录,针对在海量标签数据中存在的多读、冗余读的现象,通过改进滑动窗口的数据清洗方法,解决其在处理效率方面的不足。对阈值等影响清洗算法准确率的相关因素进行仿真,结果表明基于FSM的海量RFID标签数据清洗算法可以有效清洗标签数据,且性能优于SMURF等算法。  相似文献   

4.
5.
数据清洗是大数据中一个重要的主题。本文基于Hadoop设计并实现了一个大数据的云清洗系统。通过Map-Reduce计算模型,该系统能够检测并修复数据质量方面的各类问题。该系统包含以下特征:(1)支持数据质量方面各类问题的清洗工作;(2)数据云清洗进度可视化以及参数设置;(3)友好的数据集输入接口以及清洗后的数据集输出接口。该大数据云清洗系统对文本数据和数据库数据均是一个有效且高效的数据清洗系统。  相似文献   

6.
大数据资源是企业拥有的最重要的战略资源之一,也是管理层制定远景规划,提高市场竞争力的主要方式和途径,但大数据中会存在错误、冗余和不完整的数据,降低了大数据的总体质量。为此设计一种基于云计算的海量大数据智能清洗系统,改善现有大数据清洗系统在脏数据处理性能上的不足。分析了基于云计算的大数据智能清洗系统的总体框架和硬件构成,数据清洗系统的硬件部分由数据预处理模块、数据云聚类模块、数据识别模块和实体划分模块等部分组成;给出了智能大数据清洗系统的总体软件工作流程,并重点分析大数据空间聚类、相似度计算等关键的数据处理技术。验证结果表明,提出的基于云计算的海量大数据智能清洗系统设计的总体功能性较为完善,在系统性能测试方面也能够保持95%以上的数据查准率和召回率。  相似文献   

7.
自国家智能电网通信系统建立以来,数据库中存储着海量的原始数据,比如:智能设备运行的配置信息、报警记录、运行和检修维护等管理数据。这样的大数据中蕴含着重要的电网安全、智能管理和营销方案等信息。如果将这样的“哑巴数据”可以通过通信网络接口进行链接,通过制造商服务器网络获取数据通信接口信息,由此进行数据的整合、清洗,就能保证设备的相关数据资源不仅是准确的,而且是完整又可靠的。这样数据的质量和精度就比较好,数据分析就更准确,价值更高。  相似文献   

8.
一个基于领域知识的数据清洗框架   总被引:2,自引:0,他引:2  
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题,而成功的数据清洗往往需要领域知识的支持.本文设计了一个基于领域知识的数据清洗框架,它在领域专家的支持下,通过抽样数据获得清洗规则;专家系统引擎利用获得的知识,在整个数据集上进行清洗;它具有自学习能力,在清洗过程中不断的优化清洗规则;它的知识库易扩展,框架通用性较强.  相似文献   

9.
为向城市道路交通流预测提供科学的数据支撑,本文提出了基于Python对交通流数据进行清洗。清洗的数据主要包括异常、缺失、冗余数据。清洗方法按照本文提出的清洗规则并结合交通机理知识和城市道路交通流时段特征,实现交通流数据的合理清洗。  相似文献   

10.
针对水下采砂大数据中存在信息缺失、冗余、混乱等问题,构建一种K-means聚类与CNN(卷积神经网络)的耦合模型。首先应用最小二乘法得到K-means的聚类阈值,使同类型数据更易于聚类;对数据集进行CNN网络训练,根据各种不同的样本进行网络参数选择,同时实现了CNN智能融合处理;再把从现场收集的大数据输入经过K-means-CNN智能耦合的模式中,将水下采砂大数据分为缺失、冗余、混乱、正常四种类型,并进行标记和数据清洗。试验结果表明,基于K-means-CNN的数据清洗模型,对异常数据的有效清除率超过80%,提高了水下采砂大数据的质量,为后续水下采砂大数据分析打下良好的基础。  相似文献   

11.
12.
13.
随着大数据时代的到来,数据分析对于公司甚至是一个行业的发展逐步展现出其优越性和重要性。使用开源Kettle工具提供高效、支持异构的数据提取方案,通过新型数据建模完成不仅仅是数据查询,更重要的是大数据分析,能够为公司未来的发展决策提供重要依据。  相似文献   

14.
借助大数据相关技术,基于Hadoop架构体系提出一套数据共享平台方案,并提供详细的软件功能方案和硬件部署方案,以期指导运营商IT支撑系统后续类似平台的落地建设。  相似文献   

15.
随着科技信息的发展,数据质量问题一直是数据挖掘过程中密切关注的问题.首先,对大数据时代下数据挖掘的基本过程进行阐述,分析数据清洗需要处理的问题,同时说明数据清洗的原理、进行数据清洗的系统框架.最后提出进行数据清洗应当注重的大数据思维和数据清洗发展方向.  相似文献   

16.
段卫江 《电子技术》2023,(1):268-269
阐述金融大数据风险预警系统的需求分析,系统的设计和实现,包括系统架构设计、数据处理层设计数据清洗和存储、搭建数据平台Hadoop、后端服务层和前端数据展示层的开发。  相似文献   

17.
为了提高光伏发电预测的准确性,优化光伏发电,达到对能源的充分合理利用,光伏数据必须有良好的质量,数据清洗尤为重要。文中提出了一种基于三次样条插值和皮尔逊相关的光伏数据清洗方法。首先删除冗余数据并对异常数据进行判定,再根据光伏数据的特性,针对不同异常数据进行结合三次样条插值和皮尔逊相关的数据重构。Matlab仿真结果表明本清洗方法能有效过滤异常并实现对异常数据的重构,与其他常用清洗方法相比本清洗方法的数据利用率和重构正确率更高。  相似文献   

18.
19.
传统监测方法对网络行为数据的挖掘力度不足,数据处理能力较低导致监测效果不理想,针对此问题研究基于大数据技术的实时网络信息安全监测,基于大数据技术挖掘网络信息行为特征,从中提取代表性外显特征;清洗冗余数据,对网络信息安全异常行为进行判定;设计网络异常行为实时报警模块,对网络信息安全实时状态做出预测。测试结果:此次研究所用监测报警平均时间较传统方法缩短6.1s,其异常行为误报率较传统方法降低8.4%,获得较佳效果。  相似文献   

20.
当前在通信大数据清洗过程中,由于不能同时实现数据滤波与清洗,导致清洗效果差及通信时延高,为此提出基于随机森林算法的通信大数据重复清洗方法.构建主网通信数据的多维分布异构存储节点分布模型,采用云融合调度方法进行数据自适应调度和信息特征采样,结合模糊特征匹配和检测滤波方法实现数据采集过程中的抗干扰处理,根据所采集到的数据采...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号