首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。本文以开源的网络爬虫Heritrix为基础,分析其结构特征与工作原理并引入了多线程处理的改进办法,设计出一个主题爬虫,在单机环境下进行该爬虫性能的测试。实验结果表明该主题爬虫的查全率达到较高水准,为进一步研究开发搜索效率高的垂直搜索引擎打下坚实的基础。  相似文献   

2.
本文综合利用主题搜索、Wiki等技术,设计并实现了一个基于社会计算的科普教育平台。此平台是一个集科普资源共享、用户交流的开放平台,用户在此平台上可以利用科普Wiki添加、编辑、评论科普信息,实现广泛交流,提升自主学习能力。同时,还能利用科普搜索引擎搜索到专业的科普知识,并通过对搜索结果进行评分来影响科普搜索引擎对结果的排序,享受到更为专业和准确的搜索服务。  相似文献   

3.
提出了一个新型的页面评价方法,即信息内聚度评估指标,来改善搜索引擎的效率,通过分析网页自身主题、外部链接以及所属站点的主题来衡量页面的质量.实验结果表明该方法能提高搜索效果达24.5%.  相似文献   

4.
主题搜索是搜索引擎发展的一个新方向。Lucene是目前优秀的搜索引擎开源软件之一。文章以BBS搜索引擎为载体,研究了面向主题搜索引擎的实现和优化,提出了JE中文分词实现方法,针对BBS文本结构特性,改进和优化了Lucene检索评分算法,构建了一套高性能的主题搜索引擎实验系统。通过对水木清华等BBS信息的采集和测试,证明了该主题搜索引擎的性能和效率得到较大改进和提高。  相似文献   

5.
使用通用搜索引擎从大量互联网站点中检索违规视频网站或节目,其检索的结果与搜索需求不甚相关,获知的信息缺乏针对性,无法获取满意的查全率和查准率。本文采用了元搜索分布式搜索架构,结合用户反馈经验,对互联网视频节目的相关信息进行采集和索引检索,实现了面向互联网在线视频主题管理的搜索引擎系统。实验数据显示与通用搜索引擎相比,该搜索引擎能更好地实现视频资源的主题聚集,极大地提升了对相关资源的搜索效率。  相似文献   

6.
仲兆满  李存华  刘宗田  管燕 《电子学报》2014,42(12):2352-2358
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数.针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法.设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较.结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能.  相似文献   

7.
8.
主题搜索引擎中专业网页索引集构造算法的研究   总被引:2,自引:2,他引:0  
针对特定主题的搜索引擎构建问题,给出了一种主题搜索引擎的体系结构,并在此基础上,提出了面向主题的专业网页索引集构造算法.模拟实验表明,以该算法为基础的主题搜索引擎能使用户搜索到该主题的权威页和中心页,可以有效地提高搜索引擎的查准率.  相似文献   

9.
随着信息技术的发展,网络的迅速普及,搜索引擎在网络用户的生活中扮演着越来越重要的角色,在网络时代,信息检索主要通过Internet搜索引擎进行.Internet提供了多种不同的信息发布和检索方式.讨论新型智能信息搜索技术,使用户成为搜索引擎的主导者,搜索引擎既可以按照既定的算法海量搜索,还可以根据用户输入来抓取信息,达到实时搜索功能,就如何智能分析用户输入,如何抓取网页,怎样获取网页源码,以及关键字的获取与过滤进行了描述与分析.  相似文献   

10.
元搜索引擎综合了多个搜索引擎的搜索结果,提高了搜索的覆盖率,但搜索的结果往往数目庞大,并且很多结果与用户查询并不相关,这直接影响了用户检索的质量,也提高了检索的代价。针对这一问题,提出了基于OWA算子的结果合成算法。它基于用户偏好来获得成员引擎执行某个特定类别查询的性能,采用页面反馈度来给每一个结果页面提供一个基于内容的评分,最后采用乐观OWA算子作为权重函数对结果进行了整合。实验表明,该算法提高了用户的检索效率和质量。  相似文献   

11.
基于Google的网站优化技术   总被引:2,自引:1,他引:2  
搜索引擎已经成为现在检索信息的重要手段,为了提高网站在搜索引擎中的排名,产生了网站优化的概念,针对目前流行的Google搜索引擎,通过对网站结构的分析,详细阐述了网页结构对基于PageRank算法的网站搜索引擎排名结果可能产生的影响,就如何提升网站在搜索引擎中的排名问题提出了几点优化策略,分析结果表明:对网站结构的优化可以显著提高网站在Google搜索引擎上的排名。  相似文献   

12.
基于遗传算法的搜索引擎调度   总被引:4,自引:0,他引:4  
通用搜索引擎(GSE)通过将用户的请求分发给实际的搜索引擎来为用户提供服务。GSE所选用的实际搜索将直接决定搜索的质量。由于实际搜索引擎的性能及用户的请求是动态改变的,所以固定的实际搜索引擎不利于系统整体性能的优化。文中利用一种模拟自然界生物进化过程的计算模型--遗传算法来实现GSE中智能代理管理器的调度策略。利用它可以动态优化实际搜索引擎的组合,从而提高GSE的整体性能。  相似文献   

13.
Search engine plays an irreplaceable role in web information organizing and accessing. It is very common for Internet users to query a search engine when retrieving web information. Sensitive data about search engine user’s intentions or behavior can be inferred from his query phrases, the returned results pages, and the webpages he visits subsequently. In order to protect contents of communications from being eavesdropped, some search engines adopt HTTPS by default to provide bidirectional encryption. This only provides an encrypted channel between user and search engine, the majority of webpages indexed in search engines’ results pages are still on HTTP enabled websites and the contents of these webpages can be observed by attackers once the user click on these links. Imitating attackers, we propose a novel approach for attacking secure search through correlating analysis of encrypted search with unencrypted webpages. We show that a simple weighted TF–DF mechanism is sufficient for selecting guessing phrase candidates. Imitating search engine users, by querying these candidates and enumerating webpages indexed in results pages, we can hit the definite query phrases and meanwhile reconstruct user’s web-surfing trails through DNS-based URLs comparison and flow feature statistics-based network traffic analysis. In the experiment including 28 search phrases, we achieved 67.86% hit rate at first guess and 96.43% hit rate within three guesses. Our empirical research shows that HTTPS traffic can be correlated and de-anonymized through HTTP traffic and secured search of search engines are not always secure unless HTTPS by default enabled everywhere.  相似文献   

14.
王庆福 《电子测试》2016,(12):76-77
搜索引擎作为目前主要的信息检索工具,提高自身网站在搜索引擎中排名能够给自身网站带来非常大的流量消息并转化为经济收益。SEO技术主要通过一些技术手段来提高搜索时自身网站和用户检索词之间的匹配度从而提高结果排名,这对于企业推广具有非常重要的意义。  相似文献   

15.
李建廷 《电子科技》2010,23(6):64-66
元搜索引擎与基本成员搜索引擎之间的信息交换,是元搜索引擎技术实现的难题,针对这一问题,选择Google和Baidu基本搜索引擎,实现了对这两个基本搜索引擎的检索、结果采集、生成搜索记录的过程,并对采集、处理后的检索结果进行排序,供用户进行二次检索。  相似文献   

16.
对搜索引擎中评分方法的研究   总被引:1,自引:1,他引:0       下载免费PDF全文
韩立新 《电子学报》2005,33(11):2094-2096
针对搜索引擎评分较为困难的问题,文中提出了一种评分方法.该方法使用协同过滤技术,在同一兴趣组中各用户所提供的搜索结果集的基础上,采用文中提出的并行关联规则算法对各用户的局部有向图进行预处理,找出兴趣组中各成员都感兴趣的页面.然后对这些页面的内容和超链接附近出现的文本以及链接结构进行分析.计算权威页面和引导页面,以找到虽不包括在检索结果中,但相关的页面.此外,在对所获得的页面进行评价时,除考虑Web页自身的链接结构和兴趣组中查询用户对页面的评价,还考虑兴趣组中其它成员对页面的评价和所有成员对页面的使用情况等因素,从而使推荐给用户的页面排序更加合理.  相似文献   

17.
黄海 《现代电子技术》2011,(24):90-92,98
未来的WWW搜索引擎将不只用于文字搜索,它应该能够理解Web页面的内容,在其上执行逻辑推理,实现复杂的搜索查询并反馈准确结果。创建了一个用于语义搜索引擎的概念体系结构,讨论了其中的构件以及它们之间的交互过程,并证明了此概念体系结构的优越性。现今推理引擎的问题是它们不支持健全的知识库,所以功能限制在了代码验证上。这里提出的概念体系结构不存在这个问题,该体系结构中的推理引擎具有一个完整的知识库。此外,通过使用W3C推荐的OWL语言,语言标准化的问题也得到了很好解决。  相似文献   

18.
The use of search engines within the Internet is now ubiquitous. This work examines how Grid technology may affect the implementation of search engines by focusing on the Signal Data Explorer application developed within the Distributed Aircraft Maintenance Environment (DAME) project. This application utilizes advanced neural-network-based methods (Advanced Uncertain Reasoning Architecture (AURA) technology) to search for matching patterns in time-series vibration data originating from Rolls-Royce aeroengines (jet engines). The large volume of data associated with the problem required the development of a distributed search engine, where data is held at a number of geographically disparate locations. This work gives a brief overview of the DAME project, the pattern marching problem, and the architecture. It also describes the Signal Data Explorer application and provides an overview of the underlying search engine technology and its use in the aeroengine health-monitoring domain.  相似文献   

19.
在元搜索结果的排序过程中,一项很重要的步骤就是计算相关文档的分数,而其中由于搜索引擎在性能,准确度,用户偏好等方面的差异,最终会造成对最终排序结果的影响,所以如何确定各成员引擎的权重就很重要,而权重的确定又在于对其的评价,文中就此提出了一种确定成员搜索引擎分数指标权重的方法.通过对专家问卷调查的形式确定初始矩阵,利用基于最大偏差思想的修正算法修正了一致性,而后筛选判断矩阵,解决专家之间的较大分歧,最终获得成员搜索引擎权重.  相似文献   

20.
近似镜像网页检测算法的研究与评价   总被引:7,自引:0,他引:7       下载免费PDF全文
王建勇  谢正茂  雷鸣  李晓明 《电子学报》2000,28(Z1):130-132,129
当前在WWW上有众多的近似镜像web页面,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一.为基于关键词匹配的搜索引擎系统提出了5种近似镜像网页检测算法,并利用“天网”系统对这5种算法进行了实际评测.另外还将它们与现有的方法进行了对比分析.本文所论述的近似镜像检测算法已成功地被用于消除“天网”系统的重复网页,同时也可广泛应用于数字化图书馆的搭建.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号