首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
Web爬行虫是当今搜索引擎的主要组成部分,也是信息检索领域研究的热点问题。本文综述了具有一定智能性的网络爬行虫的研究历史与现状,主要包括两个方面:传统的人工智能方法如神经网络、遗传算法、蚁群算法等在网络爬行虫的应用,以及借助这些方法发展起来的主题爬行虫;多网络爬行虫系统中爬行虫的协调的Agent技术。在此基础上,提出了一个语义概念背景图的网络爬行的基本思路。  相似文献   

2.
Ajax模式通过在客户端建构中间层,实现了页面表现与应用逻辑的分离,并且支持B/S环境下用户操作与服务器响应的异步化.简要阐述了Ajax模式的核心概念、体系结构和异步交互机制,并结合实例给出了Ajax的具体应用方法.  相似文献   

3.
为了在浩如烟海的Web信息中更快地找到用户关心的信息,提出了一种主题爬行方法——MatchLink,它通过文档向量模型来评估网页链接的主题相关度,通过朴素贝叶斯算法和多层分类的方法计算链接所在网页的主题相关度,并根据这2个相关度优先下载主题相关的页面,实验表明其结果好于BestFirst和BreadthFirst。  相似文献   

4.
目前的移动网络蜘蛛往往采用递归爬行的方法,该方法会造成系统资源开销大、爬行速度慢,而且可能会因为被搜索Web页面本身结构的原因造成死循环。本文指出了该方法的不合理性,设计了一种非递归爬行方法,有效地避免了死循环,与递归爬行方法相比,系统资源开销更小、爬行速度更快。  相似文献   

5.
目前大量的WEB服务与操作都对服务器提出了挑战,而利用Ajax与SOA结合成A/S架构更好地组合和调用了服务,Ajax引擎将不同服务在客户端进行了更好的响应处理,从而分担了服务器的负担,作者应用测试工具WAST对其进行了性能对比测试,结果表明不仅从服务器端与客户端访问数据优化了性能,减轻了服务器的负担,而且从服务器存取数据操作和客户端使用页面都提高了效率.  相似文献   

6.
基于WSN的室内环境监测系统中,分析了采用B/S模式查询监测结果时页面刷新慢的问题,并提出采用Ajax技术解决上述问题的方法。实验表明:应用Ajax的异步调用机制实现局部刷新,有效提高了页面刷新速度和Web应用响应灵敏度。  相似文献   

7.
SVG是近几年发展起来的一种基于XML的二维矢量图形格式,已经在网络地图领域得到了广泛的应用。Ajax技术在Web中的应用是当今的热点问题,它与传统Web开发方法的区别在于实现了客户端和服务器端的异步通信。在简要介绍SVG技术和Ajax技术的基础上,提出了一种基于SVG和Ajax的矢量图形处理方法。  相似文献   

8.
基于Ajax的网络作业管理系统的设计   总被引:2,自引:0,他引:2  
介绍基于Ajax的网络作业管理功能,在此基础上设计了基于Ajax的网络作业管理系统,并与传统的B/S系统进行了服务器负荷对比和网络流量对比.结果表明,通过开发基于Ajax的网络作业管理系统,能实现学生作业流程和手段的网络化,解决学生集中操作所产生的服务器负载过大和网络堵塞问题,提高系统的性能和网络作业管理系统的使用效率.  相似文献   

9.
针对扩展卡尔曼滤波(EKF)在自主水下航行器(AUV)移动声学网络协同导航中,存在强非线性观测方程条件下线性化误差大、计算复杂等缺点,文章提出一种基于无迹卡尔曼滤波(UKF)的AUV移动声学网络协同导航方法.利用移动长基线原理和UKF方法,建立基于UKF的协同导航滤波算法,并通过仿真实验与传统的EKF协同导航算法进行对比.仿真结果表明,基于UKF的协同导航算法能明显减小导航定位误差,在导航精度上优于EKF方法,是AUV协同导航中一种更加简单有效的导航滤波方法.  相似文献   

10.
本文阐述了液压传动系统中出现的爬行现象及其产生原因,进行了爬行运动的机理分析和理论分析,并针对机械系统的速度波动对爬行运动的影响等因素,引入了“许用速度”的概论.本文还就爬行现象的消除与防治,提出了降低系统许用速度的措施和方法.  相似文献   

11.
为解决信息检索时不同用户对搜索结果有不同期望的问题,提出了一种基于向量空间模型的个性化网页搜索算法.针对用户不同兴趣,利用用户画像能够更加全面地表示用户兴趣的特点,通过向量空间模型建立用户画像来表达用户兴趣,结合传统的网页排序算法得出最终的网页排序结果.对于不同用户可得到不同的网页搜索结果,排序靠前的网页中符合用户兴趣...  相似文献   

12.
针对传统网页分类中存在的准确率和查全率不高、分类效率低的情况,提出一种基于朴素贝叶斯分类的网页预分类算法.算法根据用户的网上活动情况提取相关网址,分析网页内容和网页关键词,利用朴素贝叶斯分类算法进行分类,根据用户对各类网页的浏览情况分析用户的行为特征.采用改进的文本权值计算方法,并引进网址预分类机制,提高数据的处理效率以及分类的准确率.结果表明,网址分类算法准确,能够充分发掘用户的兴趣喜好,可以作为用户行为分析的数据算法进行商业推广和司法取证.  相似文献   

13.
在对现有主流网页消重技术分析的基础上,提出一种基于网页内容的改进的网页消重高效检测算法.该算法通过利用网页的标签树结构选取最大的多个文本块,将这些文本块连接在一起生成一个代表该网页的MD5指纹,对指纹进行比较,确认近似网页实现消重,实验证明该方法对近似网页能进行准确的检测.  相似文献   

14.
Cyber-crimes are growing rapidly,so it is important to obtain the digital evidence on the web page.Usually,people can examine the browser history on the client side and data files on the server side,but both of them have shortcomings in real criminal investigation.To overcome the weakness,this paper designs a web page forensic scheme to snapshot the pages from web servers with the help of web spider.Also,it designs several steps to improve the trustworthiness of these pages.All the pages will be dumped in local database which can be presented as reliable evidence on the court.  相似文献   

15.
在网络文字、图像视频、音频数量日益增长的网络世界中,网络爬虫爬取结果变得越来越差,主要表现在爬取网页的精确率低、召回率低和重复率高等方面。为解决这些问题,结合市场匹配基本原理和网络爬虫的特点,提出一种基于市场匹配算法的多Agent智能爬虫系统。基于市场匹配算法,设计了多Agent智能爬虫系统,以雅虎一级目录12个主题为测试数据对网络爬虫爬取网页的精确率、召回率和重复率进行了分析。结果表明,与未使用市场匹配算法的系统相比较,基于市场匹配算法的多Agent智能爬虫系统的精确率提高了9%、召回率提高了8%、重复率降低了5%,其爬虫性能有较大改善。  相似文献   

16.
具有时间反馈的PageRank改进算法   总被引:12,自引:0,他引:12  
针对某一类网页(比如新闻网页)在互联网上发布时间越长,其信息的重要性将随之下降这一事实,在传统的PageRank算法中加入时间反馈因子,实现网页因发布时间的长短,其PageRank值也随之上下浮动.并采用Seidel迭代算法加速迭代收敛过程.实验结果表明,改进后的算法在计算这类与发布时间相关的网页的PageRank值时,符合人们的一般期望,是有效的.Seidel迭代算法有利于提高算法效率.  相似文献   

17.
首先分析了传统HttpClient方式进行网页信息抓取时的不足,进而讨论了HTMLUNIT技术对富JavaScript页面的支持、获取Ajax技术页面的异步数据和需要模拟交互的页面数据的机器自动抓取问题,并给出实例和实现。进行了HTMLUNIT与流行浏览器内核JavaScript解析速度的对比性试验,最后得出了分析结论。  相似文献   

18.
网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发展,但是针对海量网页去重问题,目前还没有很好的解决方案,文章在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom Filter算法的特性,提出了一种快速去重算法IMP-CBFilter。该算法通过减少I/O频繁操作,来提高海量网页去重的效率。实验表明,IMP-CBFilter算法的有效性。  相似文献   

19.
为了使出版机构能够及时从大量网页中发现所需文献,需要设计能够从超文本标记语言页面中自动提取文献信息的算法.为此,设计了基于条件随机场的文献记录分析算法:首先,设计了文档对象树的分割算法,通过分割标记将页面数据分成独立的部分,这些数据块由标签和文本序列构成;随后,将该序列作为条件随机场模型的特征向量,建立文献信息标记模型;最后,设计启发式算法,从标记模型中提取文献信息数据,并通过实验验证了其有效性.  相似文献   

20.
网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号