排序方式: 共有9条查询结果,搜索用时 15 毫秒
1
1.
为了满足搜索引擎系统日益增长的高质量检索需求,针对Nutch搜索引擎框架没有实现Google的PageR-ank网页排序算法,分析了PageRank算法,并通过实验验证了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布式编程模式编码实现PageRank算法。实验结果表明,在Nutch搜索引擎系统中实现了PageRank算法后,系统的检索具有更高的准确率,能够更好地为用户提供检索服务。 相似文献
2.
姜文作为中国乃至世界电影界的一个奇迹,给我们带来了一个又一个的震撼和感动。他的电影艺术被很多人所折服,但是也引来无数的质疑。正是面对被崇拜和批判的双重压力之下,姜文的电影给中国影像文化带来了不一样的味道。本文将以姜文作为演员以及导演的作品来解析。 相似文献
3.
随着我国社会主义建设事业的不断发展,我国的有效耕地越来越紧张。现在,我国人均耕地已不及世界人均耕地的47%(约为1.3亩)。全国有666个县(区)人均耕地低于联合国粮农组织确定的0.8亩警戒线,其中463个县(区)低于0.5亩。耕地质量总体水平低;大部分耕地分布在山地、丘陵、高原地区,干旱半干旱地区,相当一部分退化严重,由于农业结构调整和灾害损毁,每年还要减少相当数量的耕地,基本建设发展中还不可避免地要占用耕 相似文献
4.
5.
随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。 相似文献
6.
7.
8.
属性抽取主要基于单元素属性抽取,而多元素属性抽取的研究较少.针对多元素组成属性情况进行研究,提出一种基于查询接口DOM结构的属性抽取方法,该方法将查询接口解析成DOM,基于DOM节点提取查询接口上对应的表单元素,对从查询接口上提取获得的元素集合进行二次聚类,挖掘元素之间的组合关系,最终将元素组合形成属性.这种方法能很好地抽取接口上的单元素属性和多元素属性,实验结果表明了方法的有效性. 相似文献
9.
基于Hadoop MapReduce的大规模数据索引构建与集群性能分析 总被引:1,自引:0,他引:1
为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引.采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能.实验结果表明:网络带宽越大,集群处理效率越高;集群节点数越多,处理大数据的能力越强.可见,网络通信带宽对Ha... 相似文献
1