共查询到20条相似文献,搜索用时 15 毫秒
1.
当前IKAnalyzer(IK)和ICTCLAS(IC)是主流的中文分词算法。文中首先通过理论对比二者在单机环境下的性能,然后使用Hadoop集群、Hadoop分布式文件管理系统(HDFS)和并行处理大数据集的Map Reduce组成的框架,利用优化后的算法,通过大量的实验对二者在分布式环境下处理大数据集的表现做出比较。 相似文献
2.
针对已有增量分类算法只是作用于小规模数据集或者在集中式环境下进行的缺点,提出一种基于Hadoop云计算平台的增量分类模型,以解决大规模数据集的增量分类。为了使云计算平台可以自动地对增量的训练样本进行处理,基于模块化集成学习思想,设计相应Map函数对不同时刻的增量样本块进行训练,Reduce函数对不同时刻训练得到的分类器进行集成,以实现云计算平台上的增量学习。仿真实验证明了该方法的正确性和可行性。 相似文献
3.
4.
史煜玲 《电子制作.电脑维护与应用》2013,(8):160
云计算是一种新生的计算机模式,通过整合整个互联网的资源使之服务于一台终端的计算机,从而提高计算机处理能力的高效性。但是,要将整个互联网上的不同位置的计算资源集中起来,而这种过程也可能会通过动态的形式表现出来,所以通常也将物联网的计算机资源称之为"云"现象。文章提出一种可信的云计算网络平台(TCCP),可以确保外包给IaaS的计算的保密性和完整性,以达到云集孙的网络化平台的研究与实现。 相似文献
5.
6.
专业搜索引擎中文分词算法的实现与研究 总被引:1,自引:0,他引:1
为实现专业信息查询的中文搜索引擎,首要的问题就是中文分词。本文首先介绍了分词用词典数据结构的组织以及使用二分查找的查询算法,然后提出了一种基于最短路径的改进分词算法。实验证明,利用该算法。可以消除大量歧义,取得较好的分词效果。 相似文献
7.
8.
9.
文本挖掘中的中文分词算法研究及实现 总被引:4,自引:0,他引:4
文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。 相似文献
10.
11.
近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效的问题,造成无法对上述异常数据进行有效检测处理,严重影响云计算Hadoop平台的数据运算准确性;针对上述问题,提出云计算Hadoop平台的异常数据检测算法研究方法;采用JNS数据采集筛查模组、算法逻辑补偿模组与动态反馈模组对现有的云端计算平台存在的问题进行针对性解决;通过仿真模拟实验证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据识别率高,准确性高,速度快、可实施性强、稳定性好的特点。 相似文献
12.
国家气象信息中心存储和保存了50多年宝贵的长序列历史资料,这些历史资料在实时、准实时业务及科研中需要经常被使用并进行气象科学计算.由于历史数据量大,耗时长,如何在短时间内得到所需的计算结果提供用户使用成为本文的主要研究目标.通过搭建云计算平台,并以30年气候资料统计整编研究对象,在云计算平台上基于MapReduce分布式并行计算模型进行多种统计项目、统计方法的算法实现.通过修改云计算平台运行环境参数配置并在不同配置下运行相同计算任务,进行计算效率对比试验. 相似文献
13.
本文以超星泛雅网络平台为研究对象,利用云计算技术,对超星泛雅网络平台线上教学实践进行分析,利用改进CRP算法,对超星泛雅网络平台的教学平台进行优化设计,并分析超星泛雅网络平台的实践应用情况,旨在实现线上教学平台的应用水平提升。 相似文献
14.
15.
16.
云计算作为当今社会关注的焦点,在社会各领域发展方面有着越来越重要的作用,被看作是新一代信息技术变革和业务应用模式变革的核心。在国家十二五规划中,幼儿教育管理和建设是一项重要课题。该文将介绍幼教资源管理平台的实现,及探索在云计算模式下的幼教资源管理平台的构建,该平台主要包括五大模块:用户管理模块、查看资源模块、搜索资源模块、上传资源模块和下载资源模块。幼教资源管理平台的实现,为幼儿教育提供更良好的教育环境。 相似文献
17.
随着信息技术的飞速发展,需要处理的数据量急剧增长,聚类算法的研究面临着海量数据分析和处理的挑战。对K-means聚类算法的优化进行了深入的研究,提出了首先选定初始聚类中心的并行K-means聚类算法。对不同大小的数据集进行测试实验,证明该优化算法具有更好的时间性、正确性和稳定性,适合于海量数据的分析和处理。 相似文献
18.
云计算作为当今社会关注的焦点,在社会各领域发展方面有着越来越重要的作用,被看作是新一代信息技术变革和业务应用模式变革的核心。在国家十二五规划中,幼儿教育管理和建设是一项重要课题。该文将介绍幼教资源管理平台的实现,及探索在云计算模式下的幼教资源管理平台的构建,该平台主要包括五大模块:用户管理模块、查看资源模块、搜索资源模块、上传资源模块和下载资源模块。幼教资源管理平台的实现,为幼儿教育提供更良好的教育环境。 相似文献
19.
本文分析了CloudSim的工作原理和仿真机制,重点介绍了CloudSim的层次模型,包括用户代码层、云资源层、云服务层、网络层、虚拟机服务层及用户接口层,从而有助于掌握CloudSim下云计算仿真的扩展问题。 相似文献
20.
随着网络技术的飞速发展,不仅给人们生产和生活提供更多有价值的信息,而且又能提升人类从大量数据中发现有价值信息的能力。现阶段,数据挖掘技术已广泛应用在各行各业当中,并且已取得了较好成果。本文主要针对基于云计算的数据挖掘平台架构设计与实现进行了深入探究和分析。 相似文献