首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定规则保留网页中与主题相关度高的语义块,最后用这些语义块代表整个网页参与检索,减少网页噪音对搜索引擎排序算法正确性的影响,实现了检索质量的改进.最后通过实验证明了改进算法的优越性.  相似文献   

2.
针对传统Aprion数据挖掘算法平台的硬件瓶颈以及算法运算耗时、需要重复扫描数据库等缺点,提出了一种基于Hadoop平台应用MapReduce模型与Hbase,对Apriori进行云端的迁移和优化的算法,并与其他的改进Apriori算法进行了分析与比较。实验结果表明:新的云端算法降低了时间复杂度,使其可以更好的进行数据处理。  相似文献   

3.
针对某一主题或学科的垂直搜索引擎是搜索引擎的延伸和细分,面向特定用户提供垂直搜索。网页排序算法是搜索引擎好坏的关键,搜索引擎网页排序算法的目的是从海量搜索结果中将主题相关和权威的网页排在前列,帮助用户查找所需的资源。 Nutch搜索引擎只实现了一个基本的综合排序模型,为了使Nutch更好地满足专业用户的需求,该文设计一个综合考虑主题相关性和网页权威性的综合排序模型,将主题相关度因子和改进后的PageRank算法因子融入到Nutch网页评分计算公式中。实验表明,改进的排序算法可以提高信息的查准率,具有明显的主题倾向性,在实际应用中发挥作用。  相似文献   

4.
基于Hadoop MapReduce的大规模数据索引构建与集群性能分析   总被引:1,自引:0,他引:1  
为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引.采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能.实验结果表明:网络带宽越大,集群处理效率越高;集群节点数越多,处理大数据的能力越强.可见,网络通信带宽对Ha...  相似文献   

5.
由于网络资源的复杂性,通用搜索引擎已经不能满足用户信息检索的准确性需要;为了满足并针对特定领域或特定主题查询的特定用户群的要求,专业搜索引擎技术成为目前信息检索领域内一个具有实用价值的研究热点。针对专业搜索引擎,在分析了网页评测的基本问题和方法的前提下,提出了一种基于H ITS“综合价值”评价的改进算法。  相似文献   

6.
Hadoop平台中的MapReduce并行分布式编程模型通过将廉价节点组合成集群提供存储和计算服务,可以降低集群成本。Hadoop可以通过配置使Reduce任务在Map任务完成固定百分比时启动,但是过早地启动Reduce任务会造成Reduce资源长期处于等待状态。提出一种Reduce动态调度的DRS算法,通过作业中Map任务数量和大小计算Reduce启动时间,并在作业运行中根据Map任务的调度情况修正启动时间,以节约Reduce资源的使用效率。实验表明,DRS算法与固定百分比参数的方法相比,shuffle阶段时间缩短了7.3%。与系统默认参数相比shuffle阶段时间缩短了43.6%。  相似文献   

7.
基于网页时间权值的PageRank算法改进   总被引:1,自引:0,他引:1  
针对PageRank搜索算法采用传统文献引文分析方法导致先后更新的网页没有有效给予权值的不足,提出一种改进的N-step PageRank搜索算法。新算法在原有网页优先级别的计算方法上加入网页时间权值,使对页面级别的计算更为合理。实验结果表明,新算法能够加强最新发布网页的重要性,优化网页的搜索排序。  相似文献   

8.
HDFS;肯容错性好、传输效率高等优点。MapReduce对数据采用海量处理的方式。文章根据笔者对HDFS和MapReduce的理解发表一些自己的看法。  相似文献   

9.
10.
针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点。通过对Hadoop框架和MapReduce编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop的校园云存储系统。经过实验验证,该系统有效地解决了在校园办公、教学和科研过程中遇到的海量数据存储管理问题,具有开发成本低、处理速度较快、运行稳定、易于扩展等特点。  相似文献   

11.
为提高Hadoop平台性能,提出一种基于粒子群优化算法的Hadoop调度算法。以粒子位置代表可行的资源调度方案,以任务完成时间及资源负载均衡度作为目标函数,通过粒子群优化算法,找到最优的资源调度方案。实验结果表明,该算法能够很好的平衡资源负载,减少任务完成时间,有效的提高了Hadoop平台的性能。  相似文献   

12.
基于Hadoop架构的分布式计算和存储技术及其应用   总被引:1,自引:0,他引:1  
介绍了Hadoop架构的主要构成,通过一个实例详细阐述了Hadoop架构的MapReduce实现机制;开发了一个基于Hadoop架构职工工资统计应用实例,并根据该实例分析了其在单节点模式、伪分布模式和完全分布模式应用中的运行效率.  相似文献   

13.
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。   相似文献   

14.
为了使经济周期仿真能够处理本地数据和集群、网络中的数据,减轻系统负载并提高仿真效率,运用Hadoop并行处理技术,实现了对多个市场数据的同时模拟,增强了经济周期模拟仿真系统处理大量数据的能力,缩短了仿真模拟的时间,有利于扩大仿真模拟的广度和深度。  相似文献   

15.
基于C语言实现的若干排序算法和分析   总被引:1,自引:0,他引:1  
讨论了几种常见的内部排序算法及其时间复杂度:插入排序、起泡排序、选择排序、快速排序、希尔排序、堆排序,并且对这几种排序算法进行了分析比较。着重提供了希尔排序和堆排序的实现程序,以堆排序及希尔排序作为具体应用例子来实现对一批数据进行排序。  相似文献   

16.
当元素个数n≤c1,(c1为某一依赖于机器和语言环境的常数)时,简单插入排序的性能最佳;当c1≤n≤c2时(c2为某一依赖于机器和语言环境的常数),快速排序的性能最佳;当n>c2时,归并排序的性能最佳.结合简单插入排序,快速排序和归并排序,提出组合式排序算法,理论分析和实验表明,新算法的性能优于快速排序算法和归并排序算法.  相似文献   

17.
大数据时代的到来,数据格式呈现多样化,对Web数据的处理不仅仅局限在网页链接上,还需要处理无链接结构的文档。如何从海量的文档中获取所需的信息是搜索引擎亟待解决的问题,目前传统的根据索引分析并不能满足这一需求。为了从数百万个结果中选取价值最高的文档子集,提出了新的DocumentRank算法,通过构建衡量文档重要性矩阵来计算查询相关度得分对文档进行排序。最后通过对互联网文档数据集搜索的实验说明,DocumentRank 算法相比Lucene索引技术提高了文档检索的精确度和综合相关度。  相似文献   

18.
讨论了几种常见的内部排序算法及其时间复杂度 :插入排序、起泡排序、选择排序、快速排序、希尔排序、堆排序 ,并且对这几种排序算法进行了分析比较。着重提供了希尔排序和堆排序的实现程序 ,以堆排序及希尔排序作为具体应用例子来实现对一批数据进行排序  相似文献   

19.
随着企业业务的扩展,数据量不断增加,业务计算的要求不断提高,建设一个安全可靠的计算平台迫在眉睫.Hadoop是一个有着高可靠性、高扩展性、高效性、低成本等特点的分布式系统基础架构,实现HDFS具有高容错性,低延迟访问等特点.本文基于Hadoop构建了一个高可靠分布式计算平台,针对其高可靠性进行了异常模拟测试.  相似文献   

20.
为应对海量图像、视频对存储与分析带来的挑战,提出扩展Hadoop支持数据类型,同时集成OpenCV开源库,实现了基于Hadoop和OpenCV的计算机视觉分布式处理平台。测试结果表明,该扩展方式较目前在Hadoop平台下广泛使用的图像表示与存储方式更为高效,为开发分布式计算机视觉算法提供了高效的基础平台。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号