共查询到20条相似文献,搜索用时 171 毫秒
1.
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web 上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。 相似文献
2.
陈丽萍 《数字社区&智能家居》2009,(29)
迅速发展的Web给传统的搜索引擎带来了前所未有的挑战,面向特定主题或特定领域采集相关信息的垂直搜索引擎应运而生。在垂直搜索引擎中,网络蜘蛛的爬行策略和主题相关性判定算法是其核心。该文详细介绍了一种主题相关性判定算法-Hits算法,并在此基础上提出了一个改进的主题相关性判定算法,实验表明,改进的Hits算法提高了爬取网页的主题相关度,有助于网络蜘蛛爬取特定主题的信息。 相似文献
3.
本文将概念检索扩展到面向领域主题检索的范畴,提出了面向领域主题的智能检索模型。给出了概念语义网络和面向领域主题的形式化描述,利用概念语义网络实现领域主题的同义词及其语义蕴含扩展,并实现一个基于建筑业的面向领域主题的智能搜索引擎。 相似文献
4.
社交网络数据采集是开展社交网络分析的基础.针对当前面向主题的社交网络数据采集技术采集数据少、召回率低的问题,本文提出基于内置搜索引擎和基于通用搜索引擎相结合的主题消息采集方法,并将LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型应用于主题关键词的迭代扩展,并提出了一种基于用户生存值的高效扩展策略.实验结果表明本文提出的方法可以使面向主题的社交网络数据采集系统在保证一定准确率的情况下进一步获取主题相关数据. 相似文献
5.
主题搜索网络机器人的研究对于主题搜索引擎整体性能的提高具有重要意义.鉴于国内尚缺少专门面向中医药主题的搜索引擎,针对中医药信息的特点提出了中医药主题搜索网络机器人的搜索策略和系统结构,描述了系统的基本工作流程.结合Java I/O流、套接字编程、多线程编程、中文分词和数据库JDBC 连接等技术,设计和实现了中医药主题搜索网络机器人系统.面向中医药主题对如何提高主题搜索网络机器人的搜索效率和精度进行了有益的探索,对其它主题搜索网络机器人的研究和开发具有一定的借鉴作用. 相似文献
6.
基于超链接引导和链接图分析的主题搜索引擎 总被引:1,自引:0,他引:1
主题搜索引擎足专为查询某一学科或主题信息而出现的查询工具.针对目前各种主题搜索引擎在主题搜索上的优缺点,提出将基于文字内容启发的超链接引导技术与基于 Web 链接图的 PageRank 算法相结合的 IPageRank-IND 算法,以提高链接相关度判断的准确性和主题资源搜索的覆盖率,并将网页按照 VSM 算法进行内容相关度判断和自动分类,从而提高检索效率.最后构建一个搜索引擎进行实验,通过比较该算法与其他几种算法的实验结果,能够看到 IPageRank-IND 算法的优势是明显的. 相似文献
7.
面向主题的Web信息收集系统的设计与实现 总被引:7,自引:0,他引:7
随着互联网信息的持续爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,发展面向主题信息的专用网络信息检索工具已经成为趋势。文中提出的面向主题的Web信息收集系统是这类工具的核心部件,该系统采用文档矢量模型进行文档相关度计算,并结合页面链接的上下文信息过滤页面;借鉴并修改了Shark启发式查找算法来查找相关页面;可采用多机并行下载提高收集效率;并依据站点的重要程度进行动态更新。在一个面向Internet的计算机教学资源检索的搜索引擎中具体实现了这个Web信息收集系统,整个系统在低性能的台式机上就能运行,并可获得较高的属于指定主题的页面的收集精度和收集效率。 相似文献
8.
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法--EPR算法。 相似文献
9.
涂远 《计算机光盘软件与应用》2010,(6):80-80
作为搜索引擎的重要组成部分,网络机器人能从Intemet上自动获取网页,替搜索引擎在Intemet上搜集网页。通用网络机器人以种子URL作为入口,对整个Web进行遍历下载。而主题网络机器人不单单是充当一个获取网页的工具,还能够对链接以及页面内容进行主题相关性识别。主题网络机器人并不仅把目标定位覆盖率,还要提高获取主题相关网页的准确性,为搜索引擎提供一个主题相关的网页库。现在,主题网络机器人已经成为搜索引擎技术领域的一个研究热点,是搜索引擎的发展的重点方向之一。 相似文献
10.
主题搜索引擎是专为查询某一学科或主题信息而出现的查询工具。针对目前各种主题搜索引擎在主题搜索上的优缺点,提出将基于文字内容启发的超链接引导技术与基于Web链接图的PageRank算法相结合的IPageRank?IND算法,以提高链接相关度判断的准确性和主题资源搜索的覆盖率,并将网页按照VSM算法进行内容相关度判断和自动分类,从而提高检索效率。最后构建一个搜索引擎进行实验,通过比较该算法与其他几种算法的实验结果,能够看到IPageRank-IND算法的优势是明显的。 相似文献
11.
12.
基于特别兴趣组的P2P网络搜索算法 总被引:1,自引:0,他引:1
从实现搜索引擎的角度,分析了泛洪策略(flooding strategy), 扩展环策略(expending ring), 行走者(walker) 和多个行走者(k walker) 搜索策略。沿着这些策略的思路,引用“小世界”思想,进一步提出了基于特别兴趣组的P2P网路搜索查询算法。该算法的特点就是改变被动的提供信息网络节点为主动提供服务的网络节点,或者说把网络节点作用从信息提供者改变为查询向导。网络节点不但提供查询所求的内容,同时利用与它有相同兴趣的特别兴趣组通讯簿为所收到的查询提供指南。因此可以加快P2P网的查询速度,同时减轻网络负荷。 相似文献
13.
14.
提出一种通过类自然语言输入在海量源码库中进行代码搜索的方法,旨在提高开源代码在方法层面的重用性。相比于传统的关键字匹配的海量源码搜索方案与基于自然语言的上下文相关的项目内定位方法,本文的程序分析结合语义网络的算法既可解决前者由于源码中缩写与近义词问题带来的目标无法匹配的问题,同时也可解决基于自然语言的源码定位受限于指定项目无法在应用于海量源码搜索的限制。最后通过实验验证引擎的可靠性与可用性。 相似文献
15.
随着网络的普及,网上检索成为了人们获取信息的主要方式。目前的搜索引擎相对独立,覆盖范围比较有限。相比之下,元搜索能够更好地满足用户的检索需求。当用户在元搜索提供的统一界面中输入一个查询时,元搜索会将处理后的用户请求发送给相关的成员搜索引擎。但是一个重要的问题是如何识别出潜在的搜索引擎以便更好地处理用户的请求。鉴于此提出了一种基于遗传算法的选择机制,该方法将各个成员搜索引擎的权重考虑在内。实验结果表明,该方法确实能够提高引擎选择中的效率和精度。 相似文献
16.
17.
SEO技术在网站开发中的应用 总被引:1,自引:0,他引:1
首先根据搜索引擎基本原理分析影响网页搜索排名的主要因素,然后就URL地址重写、排除重复内容、HTML优化3个主题,论述了网站开发时的SEO技术。 相似文献
18.
用户协作式智能搜索模型的研究 总被引:2,自引:0,他引:2
随着网络信息资源的日益膨胀和搜索引擎技术的不断发展,搜索引擎反馈的搜索结果也越来越多而使用户无所适从。为了有效提高搜索效率和搜索结果的准确性,该文提出一种基于用户协作的搜索结果优化模型。该优化模型将搜索引擎对搜索结果的处理同用户对搜索结果的挑选有机结合起来,搜索引擎可以根据用户的反馈信息不断地调整搜索结果,使搜索结果逐步满足用户的检索需求。 相似文献
19.
为了提高认知无线网络的参数优化效果,提出了一种基于免疫优化的认知引擎参数调整算法。免疫克隆优化是一种有效的智能优化算法,适合求解认知无线网络的引擎参数调整问题。免疫优化中,变异概率影响着算法的搜索能力;利用正态云模型云滴的随机性和稳定倾向性特点,提出了一种基于云模型的自适应变异概率调整方法,并用于认知无线网络的参数优化。在多载波环境下对算法进行了仿真实验。结果表明,所提算法收敛速度较快,参数调整结果与对目标函数的偏好一致,能够实现认知引擎参数优化。 相似文献
20.
P2P流媒体的点播研究目前是个热点.在P2P Kademlia网架构分析的基础上,设计开发了一套基于KAD网络的P2P流媒体点播系统.首先描述了P2P Kademlia网络本身的路由与查找机制,之后提出了基于KAD网的P2P流媒体点播系统架构.然后重点描述了基于Kademlia网络的P2P流媒体的节点路由和查找改进算法,主要包括网络中P2P节点的加入机制、媒体资源发布机制、媒体资源的搜索和节点的离开机制等.通过对比实验,证明了本算法和方案支持P2P网络中的节点高效率的路由查找和维护,同时增强了P2P流媒体点播网络的健壮性和扩展性.最后展望了该领域的主要研究方向. 相似文献