首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
王有为  汪定伟 《控制与决策》2002,17(Z1):695-698
提出链接可达性和网页可达性的定义.为计算网页可达性,设计了计算到达网页路径的路径树生成算法(PTSA).基于极大化网页重要性与网页可达性之间相关性的链接结构设计思想,建立一种网站最优链接结构设计的数学模型,并提出将PTSA嵌入禁忌搜索的求解方法.实验结果表明,该方法可帮助网站设计者建设链接结构合理的电子超市网站.  相似文献   

2.
定义了链接可达性和网页可达性的概念.为计算网页可达性,设计了计算到达网页路 径的路径树生成算法(PTSA).建立了一种极大化网页访问率与可达性之间相关性的网站链接 结构调整的数学模型,并提出将PTSA嵌入禁忌搜索的求解方法.试验结果表明本文的方法可 以帮助网站设计者改进网站的链接结构.  相似文献   

3.
链接结构是网站设计与维护时需要考虑的主要因素.将网站结构抽象为无权有向图,提出了网页可达性和平均载入时间的概念,建立了一种网站链接结构优化的多目标模型,并针对模型的非线性特点设计了禁忌搜索算法.仿真实验表明,链接结构优化的方法不但有助于管理员维护网站结构,而且可以为电子超市的顾客获取商品信息带来方便.  相似文献   

4.
超链接是超文本的一个重要特征。网页超级链接类型的不同决定了所选择的路径不同,链接路径的选择在网站设计和站点维护中具有重要的作用。本文着重介绍网页超级链接的几种常见的类型以及每一种类型应该使用哪种路径,为网页制作、网站维护提供参考。  相似文献   

5.
超链接是超文本的一个重要特征。网页超级链接类型的不同决定了所选择的路径不同,链接路径的选择在网站设计和站点维护中具有重要的作用。本文着重介绍网页超级链接的几种常见的类型以及每一种类型应该使用哪种路径,为网页制作、网站维护提供参考。  相似文献   

6.
网页设计中的网站目录结构和链接结构问题   总被引:1,自引:0,他引:1  
网页设计时首要考虑的是网站的构建形式,网站的灵魂在于网站结构的规划。文中通过对网站目录结构和网站的链接结构的研究,提出了几种优化方式,以提高网页设计的质量和浏览速度。  相似文献   

7.
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法LPC,该模型能够学习大型网站中从主页通向目标网页的最优路径,从而指导爬虫快速定位到含有Web实体的目标网页.LPC算法分为两个阶段:首先,使用概率无向图模型CRF,学习从网站主页通往目标网页的链接路径模型,CRF模型能够融合超连接和网页中的各种特征,包括状态特征和转移特征;其次,结合增强学习技术和训练的CRF模型对爬行前端队列的超链接进行优先级评分.一种来自增强学习的折扣回报方法通过利用路径分类阶段学习的CRF模型来计算连接的回报值.在多个领域大量真实数据上的实验结果表明,所提出的适用CRF模型指导的链接路径预测爬行算法LPC的性能明显优于其他聚焦爬行算法.  相似文献   

8.
设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、标题字体属性及日期,采用NewsPageRank算法计算每个新闻链接的权重。测试结果表明该方法对Internet上的新闻站点普遍具有较好的分析效果,性能可以满足实用要求。  相似文献   

9.
继功能和美之后,以人为本是网页设计的第三大要素,通过对网页设计中的编排布局、文字设计、网站链接三方面的以人为本进行分析,指出网页设计中技术服务艺术、艺术服务人性,以人为本的设计是网站设计发展的趋向。  相似文献   

10.
一种利用链接信息检索关键资源的算法   总被引:2,自引:0,他引:2  
随着互联网的发展,基于Web的信息处理技术越来越受到人们的重视,也是当前研究的前沿课题。本文探讨的是如何在现有检索技术的基础上,利用Web网页的链接信息,自动地得到更高质量的检索结果——关键资源。本文提出一种同时利用Web网页的结构和内容信息以及链接信息的新方法:先结合网页的结构信息和内容评分得到网页的文档评分,然后基于网页出链的文档评分计算网页的链接评分。实验表明,本文的方法减少了无用链接的干扰,比单纯利用链接信息的效果好得多。  相似文献   

11.
基于网站影响力的网页排序算法   总被引:1,自引:0,他引:1  
张芳  郭常盈 《计算机应用》2012,32(6):1666-1669
传统的排序算法主要是根据网页之间的链接关系进行排序,没有考虑到网站与网页之间互相增强的关系和用户对网页的重要性的评价。为此提出了一种基于更新时间、网页权威性和用户对网页的反映的相关排序算法。该算法以网站为节点计算每个网站权威值,在为网页分配权威值时考虑了网页在网站内的位置和用户对其的反映,并通过网站与网页之间相互影响的关系来相互反馈。实验结果表明,与传统的PageRank、HITS等排序算法相比,该算法在检索性能上有明显提高。  相似文献   

12.
如何确定搜索的方向和深度是聚焦爬行的核心问题。为此,提出了链接的预期剩余能量概念及其计算方法。该方法利用当前页面的信息计算链接的立即回报能量,利用到达同一链接不同历史路径给予的历史回报知识不断迭代更新链接的预期剩余能量。利用预期剩余能量作为链接的优先级和搜索深度限制,设计了基于预期剩余能量模型的聚焦爬行算法,并给出了关键模块的实现。实验结果显示该方法具有更强的主题网站发现能力。  相似文献   

13.
平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法: 即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。  相似文献   

14.
主题爬虫能够高效的获取特定主题的网页,是垂直搜索引擎核心技术之一。提出了一个基于领域本体的主题爬虫框架,借助基于领域本体的相关度计算方法预测链接主题的相关度和网页内容与主题的相关度,决定爬虫的下一步爬行路径,以便于尽可能缩小搜索路径。对比实验表明,提出的方法能够有效提高主题爬虫网页抓取的准确率和查全率。  相似文献   

15.
一种改进的搜索引擎网页排序算法   总被引:1,自引:0,他引:1  
本文在分析目前流行的基于链接分析的搜索引擎网页排序算法的基础上,指出基于链接分析网页排序算法未充分考虑网站性能因素.针对这一缺点,本文提出了一种改进的网页排序算法,它考虑了网站的性能等因素,对提高搜索引擎的服务质量有很好的参考价值.  相似文献   

16.
随着网络技术的发展,E—Mail邮件和网络已成为人们日常生活、工作学习中不可缺少的重要组成部分。人们经常需要设计一个网站用来和别人交流和发布信息,在网页设计中,一般都要做一个电子邮件的链接,当用户希望与网站作者联系时,便可点击相应的链接。打开Outlook Express来发送电子邮件,这多少有一点不方  相似文献   

17.
针对钓鱼攻击者常用的伪造HTTPS网站以及其他混淆技术,借鉴了目前主流基于机器学习以及规则匹配的检测钓鱼网站的方法RMLR和PhishDef,增加对网页文本关键字和网页子链接等信息进行特征提取的过程,提出了Nmap-RF分类方法。Nmap-RF是基于规则匹配和随机森林方法的集成钓鱼网站检测方法。根据网页协议对网站进行预过滤,若判定其为钓鱼网站则省略后续特征提取步骤。否则以文本关键字置信度,网页子链接置信度,钓鱼类词汇相似度以及网页PageRank作为关键特征,以常见URL、Whois、DNS信息和网页标签信息作为辅助特征,经过随机森林分类模型判断后给出最终的分类结果。实验证明,Nmap-RF集成方法可以在平均9~10 μs的时间内对钓鱼网页进行检测,且可以过滤掉98.4%的不合法页面,平均总精度可达99.6%。  相似文献   

18.
介绍了网络爬虫自动检测网站链接状况的基本原理,系统介绍了数据结构设计、网站可访问性检测、网页源代码获取、超级链接提取与去重、终止爬虫等方法,采用多线程技术设计,达到了理想的检测效果.  相似文献   

19.
上次我们大家一起动手做了第一张网页。虽然这张网页还很不完善,但毕竟迈出了可喜的一步我们的个人主页就是由这样一张一张的网页通过链接组合起来的呀。 下面就让我们充实一下自己的网站,增添几张新的网页,并且学习通过链接将它们组合起来。  相似文献   

20.
该文针对时尚网站的链接设计与维护问题,提出了时尚网站中文章、商城、活动等不同模块的统一链接解决方法。在链接设计部分,文章以导航菜单为例,归纳了四大类菜单设计方法,并对各类菜单的特点、适用范围、实现方法及优化改进方案进行了阐述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号