首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
2.
Maze系统是基于P2P,采用集中式架构管理用户和资源的内容交换系统。文章对Maze检索系统的性能问题进行了研究,讨论检索效率的影响因素,并提出改进的方法和途径。  相似文献   

3.
许维平  许驰 《微机发展》1998,8(2):57-59
介绍用 C语言编程、构造 B-树生成倒排文件 ,实现数据查找。  相似文献   

4.
在64位体系结构的CPU中,字长从32位扩展到64位,处理器每次可以处理的数据也增加到64位。这对搜索引擎使用的核心数据结构——倒排索引的压缩与解压缩带来一定的影响。针对当前32位整数字对齐压缩算法Simple不适用于64位系统的问题,对其进行改进,并提出3种基于64位的字对齐压缩算法,即SimpleX64-16、SimpleX64-32和SimpleX64-64。3种算法都采用多种压缩模式,并对每个模式进行压缩空间的优化。在64位机器上GOV2和ClueWeb09B数据集的倒排索引实验结果表明,与传统的基于32位字对齐的压缩算法相比,3种基于64位字对齐的算法在解压速度方面最多提高14.5%,在压缩率方面最多提高2.5%。  相似文献   

5.
探讨基于压缩倒排文件的中文全文检索技术,包括数据压缩方法、存储、检索与排名机制。借助中科院的高精度ICTCLAS中文分词系统,采用C++/STL语言仿真实现了一个中文全文检索系统。该文列出部分关键代码,利用搜狗实验室提供的数据进行实验。通过改进压缩算法,系统的磁盘利用率提高了近80%。  相似文献   

6.
要提高文件检索系统的性能,需要对倒排文件压缩技术进行研究与对比,以使文件检索系统在最大压缩比和最快的解压速度间寻找均衡,以到达最大的吞吐量。对Golomb,Eliasgamma,Eliasdelta,VariableByteEncoding和BinaryInterpolativeCoding五种压缩技术通过在Windows操作系统下对theTRECWallStreetJournalcollection文件系统进行存取与压缩,从CPU时钟周期角度来对比各个算法的压缩比、压缩与解压缩的时间和对文件的读取和查询所花费的时间,并对它们进行了一个综合的评测。  相似文献   

7.
基于多重倒排文件的快速相似性检索   总被引:6,自引:0,他引:6  
吴立德  罗航哉  薛向阳 《计算机学报》2000,23(11):1156-1160
提出一种新的高维空间中点数据的索引方法(即MIF),其基本原理是利用多维倒排文件。和传统索引方法相比,新方法有许多优点,例如它能以较低的复杂度建立索引结构、支持非常高的维数、极低的I/O代价等。实验结果表明,该方法优于传统的索引方法。  相似文献   

8.
基于倒排文件的布尔规则隐藏算法   总被引:1,自引:0,他引:1  
张伟  陈芸  邹汉斌  周霆 《计算机工程》2005,31(14):97-98,218
介绍了关联规则方法的研究概况,提出了利用基于倒排文件的比特向量操作实现布尔规则隐藏算法,以及对实验结果的评估分析,并对未来数据挖掘领域中涉及的信息隐藏研究进行了展望。  相似文献   

9.
该文较为详细地阐明了用C语言编程构造B_树生成倒排文件实现数据查找。对于文件记录中的数据项查找,往往采用对整个文件顺序查找的办法,这种方法速度太慢,利用倒排文件实现对数据项的查找可大大减少记录的操作量,提高查找速度。  相似文献   

10.
随着Internet网络的迅猛发展.个性化信息服务越来越成为信息检索领域的研究热点.本文分析了国内外个性化信息服务研究现状.提出了基于综合倒排索引的搜索算法,从关键词、主题词和评语三个角度出发建立综合倒排索引进行全文搜索.模拟实验表明,该算法能有效提高信息检索的查准率.  相似文献   

11.
基于日志挖掘的搜索引擎用户行为分析   总被引:1,自引:0,他引:1  
随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日志,对用户行为进行分析和研究。我们主要考察了用户搜索行为中的查询长度、查询修改率、相关搜索点击率、首次/最后一次点击位置分布以及查询内点击数分布等信息。该文还基于不同类型的查询集合,考察用户在不同查询需求下的行为差异性。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。  相似文献   

12.
缓存是有效减少响应时间和系统负载的关键技术,是搜索引擎系统结构研究的重要领域之一.通过对搜狗搜索引擎在近1个月内约1500万条用户查询日志进行分析和研究,针对查询结果缓存,从查询局部性、缓存策略、缓存容量、工作负载周期性等方面进行分析.分析表明,混合缓存策略以及提高缓存容量相结合的技术能有效提高搜索引擎系统性能.  相似文献   

13.
网络已经成为人们获取知识的一个重要途径。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎返回大量的无关信息.不能满足用户的特定信息检索需求。针对这个问题,Web信息检索领域出现了一个新的研究方向——主题驱动的Web资源发现。介绍了通用搜索引擎的基本结构、工作原理及现状。阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨。对通用搜索引擎和主题Web挖掘的关系进行了分析。  相似文献   

14.
网络已经成为人们获取知识的一个重要途径.然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情.通用搜索引擎返回大量的无关信息,不能满足用户的特定信息检索需求.针对这个问题,Web信息检索领域出现了一个新的研究方向--主题驱动的Web资源发现.介绍了通用搜索引擎的基本结构、工作原理及现状.阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨.对通用搜索引擎和主题Web挖掘的关系进行了分析.  相似文献   

15.
基于Web挖掘的网页清洗技术   总被引:1,自引:0,他引:1  
随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。  相似文献   

16.
介绍大型搜索引擎应用的主流网页排序算法,改进其中的HITSS算法,提出一种基于网页分块技术的BHITS算法。BHITS算法通过对分好的页面板块进行主题标定,根据待采集信息的主题为不同主题的板块设定不同的权值实现相关度判定,在保持算法高效率的前提下,提高了算法区分链接重要性的能力。与相关算法的对比实验结果表明,BHITS算法网页排序的准确率明显优于其他算法。  相似文献   

17.
基于大规模日志分析的搜索引擎用户行为分析   总被引:18,自引:0,他引:18  
用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。  相似文献   

18.
基于Web内容和日志挖掘的个性化网页推荐系统   总被引:1,自引:0,他引:1  
目前的网页推荐服务大都是基于对查询关键词的匹配来实现的,缺乏自动提取用户兴趣并进行推荐的能力。本文设计和实现了一个基于Web内容和日志挖掘的个性化网页推荐系统Webpage-recom- mender,该系统采用特征提取技术,能自动识别用户的兴趣,并主动推荐和筛选与用户兴趣主题相关的网页。实验结果证明了该系统的有效性。  相似文献   

19.
元搜索引擎是一站式搜索引擎,促进人们对网络信息资源的有效利用.通过元搜索引擎的概念、特点和工作原理介绍,对比独立搜索引擎,指出元搜索引擎的资料挖掘等不足,倾向网络搜索,专业搜索欠缺,指出元搜索引擎资料挖掘的发展方向.  相似文献   

20.
在对Web应用挖掘的基本步骤作系统性研究的基础上,设计了一个基于Web日志文件的关联规则挖掘模块。该系统应能够对用户访问Web时服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣。为了识别用户浏览模式,实现了利用关联规则挖掘算法Apriori对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行挖掘的模块,该模块针对用户选定的若干页面产生满足最小支持度和最小置信度的页面之间的强关联规则,并以文本的形式显示挖掘的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号