共查询到20条相似文献,搜索用时 31 毫秒
1.
《电子制作.电脑维护与应用》2017,(2)
Internet上的海量数据对人们有效、快速地使用这些资源和信息提出了挑战。网页信息采集更新的方法在很大程度上决定了网页更新的效果。为提高网页信息更新的效果,本文从抓取入口页面开始,采集网页后进行去重操作,并将网页分块提取出超链接URL信息。在此基础上,应用网页更新策略提高网页更新效果。最后,应用基于URL和网页类型的采集更新检测方法来实现网页信息采集。 相似文献
2.
搜索引擎中基于分类的网页更新方法研究 总被引:1,自引:0,他引:1
网络无限扩张的同时网页也在频繁地变化,搜索引擎必须定期更新它所检索的网页,耗费了大量时间和系统资源,因此提高更新效率是搜索引擎的关键技术.比较了目前存在的两种更新方法统一更新方法和个体更新方法,指出其优劣所在.然后提出一种改进的基于分类的网页更新方法,并从理论上论证了其优化性.实验分析表明,分类更新方法很大程度上提高了网页更新效果. 相似文献
3.
大型网站是网络信息的核心,其信息规模之大,更新速度之快是中小型网站不可比拟的,对大型网站网页搜索的好坏直接影响搜索引擎的整体性能。本文在分析分类网页更新策略的基础上,根据大型网站本身的特点提出了一种增量式信息更新方法。实验分析表明,这种增量式信息更新方法很大程度上提高了大型网站搜索引擎网页的更新效率。 相似文献
4.
大型网站是网络信息的核心,其信息规模之大,更新速度之快是中小型网站不可比拟的,对大型网站网页搜索的好坏直接影响搜索引擎的整体性能.本文在分析分类网页更新策略的基础上,根据大型网站本身的特点提出了一种增量式信息更新方法.实验分析表明,这种增量式信息更新方法很大程度上提高了大型网站搜索引擎网页的更新效率. 相似文献
5.
6.
7.
浅谈FrontPage网页的基本制作 总被引:1,自引:0,他引:1
柳燕 《计算机与数字工程》2006,34(8):173-176
FrontPage以其功能强大、容易上手、界面亲切而著称。它采用所见即所得的方式编辑网页,利用它可以轻松的组织、编辑网页并将其发布到指定的站点上,而且在发布之后还能对更新情况进行监控以更新站点的内容。 相似文献
8.
在基于链接的概率隐含语义分析的基础上提出一种融合文本链接的增量方法进行主题建模。首先在原有网页集上进行主题建模;然后随着网页的结构和内容动态变化,利用一种合理的更新机制更新模型参数,从而高效快速地处理在线网页流的动态变化。此外,提出一个自适应非对称学习方法融合文本与链接模态的隐含主题。对于每个网页,它在两种模态上的主题分布通过加权进行融合,而权值由该网页的特征词分布的熵值确定。由于融合之后的概率结构合理地关联了链接模态和文本模态的信息,故能得到很好的建模效果。两种类型的数据集上的实验结果显示该算法可以有效地节省时间,并对网页分类有较大性能的提高,此外还提供了由本文模型生成的主题显示结果。 相似文献
9.
刘成 《数字社区&智能家居》2011,(7)
众所周知,网页更新都是很快的,现在浏览的网页也许明天就看不到了!聪明一点的网友会将该页URL收藏到收藏夹或网络书签中,不过一旦网页被删,还是无法再现的,怎么办呢?到baidu、Google等搜索引擎中查看网页快照是个不错的应急对策,但网页快照也会随时被删的,只有将网页永久保存在一些专业网站上,才能不用担心看不到该网页了! 相似文献
10.
泡在网上的人总是在等待——等着新的小说章节发布,等着自己的帖子有人回帖,等着招聘网上新的工作岗位信息,等着看最新的新闻等等。其实,Aotol(http://www.aotol.com/)能够自动检查这些网页是否有更新,一旦网页有了更新便会主动提醒,并且把更新的部分用高亮度标注出来方便查看(如图1)。 相似文献
11.
网络时代,信息瞬息万变,作为爬网一族,我们每天都要在各站点之间穿梭不停,目的当然是为了在第一时间把握行业动态、了解市场资讯、关注体坛风云,将大千世界尽收眼底。面对收藏夹中成百上千个链接,一一打开查看网页是否更新,常常恨不得自己长有三头六臂,而许多的网页打开后才发现并没有更新,不但费事还白白浪费了宝贵的网时。那么,有没有办法在不打开网页的情况下就知道网页是否更新了呢? 相似文献
12.
Windows Live Messenger更新到9.0后,就可以在主界面底部的“最近更新”里查看到MSN好友最近更新的信息了,包括头像、昵称的更换和最新发表的文章、留言、网页活动等,通过网页,可以查看到邮件、网络中最近更新等诸多内容。 相似文献
13.
基于网站影响力的网页排序算法 总被引:1,自引:0,他引:1
传统的排序算法主要是根据网页之间的链接关系进行排序,没有考虑到网站与网页之间互相增强的关系和用户对网页的重要性的评价。为此提出了一种基于更新时间、网页权威性和用户对网页的反映的相关排序算法。该算法以网站为节点计算每个网站权威值,在为网页分配权威值时考虑了网页在网站内的位置和用户对其的反映,并通过网站与网页之间相互影响的关系来相互反馈。实验结果表明,与传统的PageRank、HITS等排序算法相比,该算法在检索性能上有明显提高。 相似文献
14.
爬虫是搜索引擎的一个重要组成部分,如何有效地保证本地镜像的新鲜度成为爬虫研究的一个热点问题。根据网页更新符合泊松过程的特点,提出一种及时同步本地数据库与远程网站的方法。通过保存有关网页更新情况的历史记录,统计出各个网页的更新频率,并以此确定爬虫对该网页的访问频率。通过实验证明基于泊松过程的爬虫调度策略的可行性。 相似文献
15.
吴剑冰 《电脑编程技巧与维护》2018,(4):31-33,39
在大数据时代,利用网络爬虫自动定向采集多网页有用的信息,并将爬取信息储存至数据库,Excel,Word等,可以根据网页历史数据来确定爬虫爬取网页更新信息的周期,大大增加了信息的更新及时性.基于Python3.5定向爬取当当网最新上架图书,存储图书基本信息到Word文档,并且可对比历史爬取记录,更新新书信息. 相似文献
16.
和女友一起上网,看她时不时就刷新一下购物网页,她想在第一时间查看到网页上更新的商品,以便花最少的钱买到最好的商品。为了不让女友重复刷新网页受徒劳无功之苦,我找来了搜狗高速浏览器概念版(http://www.skycn.com/soft/54964.html)。 相似文献
17.
18.
为提高搜索引擎文档索引库有效性验证的效率,本文提出了一种综合考虑网页更新频度、用户兴趣度及其内容重要程度诸因素相结合以确定文档索引库更新队列的算法。算法将用户的检索率、点击率、网页的Page Rank位和更新频度作为一个特征向量,与不同种类的网页的特征权值组成的矩阵相乘,求得网页的类型向量,依据类型向量实现对文档索引库更新队列的优化,算法改进了统一更新策略周期长、单一更新策略可能产生改变频繁而非常重要的网站长期叉得不到更新的问题。 相似文献
19.