排序方式: 共有10条查询结果,搜索用时 10 毫秒
1
1.
随着LHAASO高海拔宇宙线等高能物理实验规模的不断扩大,每年需要存储PB级的海量物理数据。高能物理海量存储系统一般采用随机的数据放置策略,没有考虑数据访问场景和服务器节点、存储设备的差异性。针对以上问题,提出一种异构存储环境下基于随机森林算法的数据放置策略,根据存储设备性能差异划分快慢存储池,同时对后期文件的读写访问场景进行预测和识别,综合考虑当前设备负载为数据找到最佳的放置位置。使用真实物理实验数据验证了算法的有效性。 相似文献
2.
大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。 相似文献
3.
【目的】高能物理科学数据中心运维环境复杂,监控工具种类繁多,功能相对重叠且监控数据无法互通,日常运维面临巨大的挑战。为高效运用监控数据,提高数据中心运维能力,本文实现了高能物理科学数据中心智能运维系统。【方法】本文结合工业大数据技术、机器学习技术和数据中心运维需求,设计了通用的数据中心运维技术架构。介绍监控数据采集、分析、存储、共享、可视化等系统核心功能及其实现方式,以及依托该系统在数据中心数据存储、计算服务、网络安全等日常运维的具体应用效果。【结果】本文设计的运维框架,在高能物理科学数据中心日常运维中得到了成熟的应用和实践,提升了数据中心运维管理能力。【结论】智能运维系统在高能物理科学数据中心的应用,加速了运维监控从数据持久化、统一化到数据业务化、生态化的价值演进,实现了基于数据驱动的数据中心智能化运维生态。 相似文献
4.
【目的】本文对国家高能物理科学数据中心分布式数据平台进行系统全面介绍,为高能物理及相关领域大科学实验的数据处理提供参考。【方法】文章介绍了国家高能物理科学数据中心分布式数据处理平台的总体构成、运行模式和智能运维等方面的关键技术。通过分析高能物理实验数据处理的计算特点与实际需求,介绍了数据中心“一平台多中心”的数据处理平台建设思想,阐述了平台为高能物理实验提供的跨地域资源共享、高性能海量数据访问以及用户实时交互服务等技术方案设计与实现。【结果】文章列举了数据中心分布式数据处理平台对两个高能物理实验的支持实例,助力科学研究成果获取。【结论】国家高能物理科学数据中心分布式数据处理平台已经成为高能物理学科的重要基础设施和组成,是学科融合、开展新研究方法的主要场所,满足了粒子物理、理论物理、空间天文、射线学科、加速器设计等科研领域的数据处理需求。 相似文献
5.
基于众包的社交网络数据采集模型设计与实现 总被引:1,自引:0,他引:1
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。 相似文献
6.
7.
高能物理计算是典型的数据密集型计算,其主要采用基于文件的分级存储方案,根据访问热度的不同将数据存储于不同性能的存储设备上,然而当前数据热度预测采用基于人工经验的启发式算法,准确率较低。提出一种借助长短期记忆网络预测文件未来访问热度的方法,包括网络结构设计、训练和预测算法等。该方法通过划分动态时间窗口构造文件访问特征的时序序列,预测不同数据的访问趋势。在LHAASO高能物理实验数据集上的实验结果表明,与SVM、MLP等算法相比,该方法预测准确率提升了30%左右,具有更强的适用性。 相似文献
8.
9.
在异构资源环境中高效利用计算资源是提升任务效率和集群利用率的关键。Kuberentes作为容器编排领域的首选方案,在异构资源调度场景下调度器缺少GPU细粒度信息无法满足用户自定义需求,并且CPU/GPU节点混合部署下调度器无法感知异构资源从而导致资源竞争。综合考虑异构资源在节点上的分布及其硬件状态,提出一种基于Kubernetes的CPU/GPU异构资源细粒度调度策略。利用设备插件机制收集每个节点上GPU的详细信息,并将GPU资源指标提交给调度算法。在原有CPU和内存过滤算法的基础上,增加自定义GPU信息的过滤,从而筛选出符合用户细粒度需求的节点。针对CPU/GPU节点混合部署的情况,改进调度器的打分算法,动态感知应用类型,对CPU和GPU应用分别采用负载均衡算法和最小最合适算法,保证异构资源调度策略对不同类型应用的正确调度,并且在CPU资源不足的情况下充分利用GPU节点的碎片资源。通过对GPU细粒度调度和CPU/GPU节点混合部署情况下的调度效果进行实验验证,结果表明该策略能够有效进行GPU调度并且避免资源竞争。 相似文献
10.
传统日志工具采集时间长、处理效率低下,无法支持大规模集群日志采集和分析需求。我们从实际需求出发,结合Flume和Elasticsearch设计实现了集群日志的实时采集和快速查询分析系统。通过预设日志规则库,实时统计并展示集群系统的运行状态,提供预警信息。 相似文献
1