首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
针对传统的基于页面内容相似度的Best-First算法只考虑词频,忽略了特征关键词的位置信息这一不足,以及BestFirst算法存在很大贪婪性,难以在全局范围内得到最优解的局限性,提出以Best-First算法为基础,利用网页HTML标签的修饰功能改进相似度的计算方法,不仅注重搜索与主题相似度很高的链接,同时还考虑某些蕴涵很大远期价值的链接。实验结果表明,改进算法相比传统算法"准确率"和"召回率"都有所提高,它是有效的,并且能在一定程度上获得全局范围的最优解。  相似文献   

2.
面向主题的网络蜘蛛技术研究及系统实现   总被引:3,自引:0,他引:3  
首先研究了面向主题的网络蜘蛛的关键技术:抓取目标描述、网页分析算法和网页搜索策略等,在此基础上,设计并实现了一个面向主题的网络蜘蛛系统(简称主题蜘蛛),采用向量空间模型来计算网页的主题相关度,使用改进的Shark-Search网页搜索策略来决定待抓取链接的访问次序,从种子网页开始,只爬行具有较高预测相关度的链接,仅采集与主题相关的网页,多线程对网页进行下载和分析,提高了主题网页采集的精度.  相似文献   

3.
从博客网站的结构特点出发,抽象出博客网站的链接分级模型,并在此基础上提出了基于蚁群算法的"目录链接-博文链接"自适应采集策略,设计并实现了针对博客网站的智能网络蜘蛛系统.实验表明,采用该策略的系统在采集效率上取得了显著提高.  相似文献   

4.
基于网络蜘蛛的搜索引擎自动发现   总被引:2,自引:0,他引:2  
藕军  任明仑  靳鹏 《现代电子技术》2007,30(12):127-129
自动发现Web上大量的搜索引擎对于构造大规模元搜索引擎是有益的,提出一种用优化爬行规则的网络蜘蛛自动发现搜索引擎并提取其元信息的方法:通过优化爬行规则的网络蜘蛛爬取页面;利用专门的识别规则从爬取到的页面中识别搜索界面,并提取其相关的元信息。试验结果表明该方法简单有效,自动发现的查准率和查全率分别达到97%和91%。  相似文献   

5.
6.
基于最小聚类系数搜索和贪婪算法在搜索中的优点,根据BA无标度网络的结构特性,以最小聚类系数和度量距离两个影响搜索性能的参数,设计出最小聚类系数最小距离搜索策略。并通过仿真实验对最小聚类系数最小距离搜索策略、最小聚类系数搜索策略、贪婪算法和随机游走搜索策略的性能进行对比。理论分析与仿真结果均表明,最小聚类系数最小距离搜索策略在BA无标度网络模型上能取得较好地搜索效果。  相似文献   

7.
仲兆满  李存华  刘宗田  管燕 《电子学报》2014,42(12):2352-2358
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数.针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法.设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较.结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能.  相似文献   

8.
用贪婪算法找出在现有网络结构中完成任务所需的波长数较少的波长集,然后依据其上每条链路的权值,用最短路算法生成一棵组播树,使其跳数和阻塞率较低,以保证在使用较少波长资源的情况下,快速、有效地传送数据.  相似文献   

9.
文章首先用贪婪算法找出在现有网络结构中完成任务所需的波长数较少的波长集,然后依据其上每条链路的权值,用最短路径算法生成一棵组播树,使其跳数和阻塞率较低,以保证网络能够在使用较少波长资源的情况下,快速、有效地传送数据.  相似文献   

10.
目前国内存在各种类型的舆论平台,以资讯类舆论平台为主,咨询类平台的受众通常都会对咨询进行评论,分析提取评论中主题内容,对评论信息进行分类分析。了解当前网民的核心诉求具有非常重要的意义。主题模型作为主题发现中重要的模型手段,对主题的定位具有明显的效果。  相似文献   

11.
基于内容评价的爬虫搜索策略研究   总被引:1,自引:0,他引:1  
Internet上的不良信息日益增多成为危害严重的社会问题,对Internet进行监控成为一项迫切任务.而网络爬虫在信息搜索中起着明显的作用.为此,对链接价值的内容评价机制进行了研究,分析了影响链接价值的具体因素,并据此进行链接价值的计算以指导爬虫的搜索.实验结果表明,该方法有助于优先发现目标页面.  相似文献   

12.
随着Web Services应用的发展,服务的动态组合技术为解决信息共享和应用协作的问题带来了新的方案,然而生成适应符合客户Qos需求的组合方案是耗时的优化问题.文中通过构建Qos驱动的服务组合依赖图模型,提出了基于A*算法的启发式的最佳路径组合方法.该算法适用于存在多输入的Web Services动态组合情况并能够生成具有最小代价的简单调用序列.实验表明,该算法适用于多输入的Web Services动态组合情况,并且具有较好的运行效率.  相似文献   

13.
基于自适应混沌粒子群的Web搜索结果聚类研究   总被引:1,自引:1,他引:0  
提出了基于自适应混沌粒子群的Web搜索结果模糊C-均值算法,用粒子群算法代替模糊C-均值算法梯度下降的迭代过程,同时引入自适应的平衡搜索策略加快算法收敛和提高去噪能力,在增强局部搜索能力的同时引导粒子群跳出局部极值点.这样不仅在一定程度上解决了网页文档不确定性的问题,而且获得快速、稳定的聚类效果.  相似文献   

14.
在海量网页中进行自动的主题识别是网页信息分析挖掘的重要研究方向,具有重要的理论和应用意义。提出一种基于集成学习的网页主题识别算法框架,由异质网页属性集构建不同的最大间隔分类器,使用集成学习对基分类器的信息进行融合。在基准数据集上进行测试,其结果表明该算法对网页主题识别是有效的。  相似文献   

15.
随着Web上数据不断增加以及人们对查询质量的要求不断提高,传统的Web搜索技术已经很难满足高质量的检索任务.针对向量空间模型以及查询结果的精确率和查全率等方面进行了深入研究,并提出一种新的Web搜索优化模型和算法.仿真实验有效提高了Web搜索的质量和效率.  相似文献   

16.
本文对 WCDMA三步小区搜索第一步小区搜索实现算法进行了研究 ,充分考虑了频差对初始小区搜索的影响 ,提出了一种主同步信道匹配滤波器的实现方式。文中给出的算法减少了实现的复杂度 ,适用性好 ,对于不同情形下的小区搜索并不需要对算法本身进行修改。  相似文献   

17.
在面向服务的环境下,存在众多可满足服务请求者要求的服务组合方案,如何从中选出最优或近似最优方案是Web服务组合优化要解决的问题.设计出一个不必探索整个解空间的优化算法——SBG算法,为服务请求者提供最优选择方案.实验结果表明,这种方法可有效提高选择方案的求解效率.  相似文献   

18.
面向Web Services事务流处理的优化RR调度算法及性能分析   总被引:2,自引:2,他引:0  
张小刚 《通信技术》2009,42(2):301-302
分析了Web Services事务流处理中常用的FCFS技术,并对采用这种技术造成的服务类型不加区分,对不同事务不分轻重缓急统一处理,服务效率不高,服务质量不好的问题进行了探讨。然后提出了用优化的RR调度算法来解决该问题的想法,并将FCFS与优化后的RR调度算法的性能进行了比较,并证明了该算法解决Web Services事务流处理服务质量不好问题的有效性。  相似文献   

19.
差分进化算法是一种有效求解全局优化问题的方法,为进一步提高求解精度,加快求解过程,文中提出一种梯度策略自适应差分进化算法。该算法是在差分进化算法中加入梯度下降法,使其不仅有较好的全局搜索能力,且具有传统优化方法的快速局部搜索能力,因此具有较高搜索精度和较快的搜索过程。通过对CEC2005测试集中的1~14号测试函数进行仿真实验,并与SaDE,NSDE以及CMAES等算法实验结果进行了对比,结果表明了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号