首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主题相关度、链接指向网页PR值和该网页主题相关度的综合计算,提出了基于网页内容和链接结构相结合的超链接综合优先度评估方法。同时,针对搜索过程易陷入局部最优的不足,首次设计了结合爬虫记忆历史主机信息和模拟退火的网络主题爬虫算法。以暴雨灾害为主题进行爬虫实验的结果表明,在爬取相同网页数的情况下,相比于广度优先搜索策略(Breadth First Search,BFS)和最佳优先搜索策略(Optimal Priority Search,OPS),所提出的算法能抓取到更多与主题相关的网页,爬虫算法的准确率得到明显提升。  相似文献   

2.
主题爬虫能够高效的获取特定主题的网页,是垂直搜索引擎核心技术之一。提出了一个基于领域本体的主题爬虫框架,借助基于领域本体的相关度计算方法预测链接主题的相关度和网页内容与主题的相关度,决定爬虫的下一步爬行路径,以便于尽可能缩小搜索路径。对比实验表明,提出的方法能够有效提高主题爬虫网页抓取的准确率和查全率。  相似文献   

3.
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。  相似文献   

4.
介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法.该算法计算种子网页集到抓取网页的链接数目和抓取网页到种子网页集的链接数目,及Web内容与主题的内容相似度,综合计算该网页的相关度权值,从中选择权威网页或hub网页作为种子网页,从而提高主题爬虫系统的爬行效率和抓取网页的查准率.  相似文献   

5.
基于遗传算法的主题爬行技术研究   总被引:3,自引:0,他引:3  
针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页.  相似文献   

6.
主题爬虫的搜索策略研究   总被引:10,自引:2,他引:8  
主题爬虫收集主题相关信息时,需要评价网页的主题相关度,并优先爬取相关度较高的网页,在决定了搜索路径的同时也决定了主题爬虫的搜索效率.针对不同的网页评价算法,对现有的主题爬虫的搜索策略进行分类,指出了各类搜索策略的特点和优缺点,总结了能够提高主题爬虫搜索效率的几方面内容.  相似文献   

7.
关慧芬  师军 《计算机仿真》2009,26(10):123-126,133
最好优先搜索算法在主题页面附近搜索时能够表现出良好的性能,但算法只关注能"立即回报"的链接而容易遗失那些有远期价值的链接,导致当搜索位置距离主题团较远时容易迷失搜索方向。在最好优先搜索算法基础上,引入了本体帮助主题爬虫识别那些"未来回报"的链接,对抛弃的主题无关链接再基于领域本体进行一次其他主题相关度的判断实验。实验结果表明,基于本体的主题爬虫能够抓取大量主题相关度高的网页,提高了主题资源覆盖率,有效解决了传统算法无法穿过隧道的问题。  相似文献   

8.
基于概率模型的主题爬虫的研究和实现   总被引:1,自引:1,他引:0  
在现有多种主题爬虫的基础上,提出了一种基于概率模型的主题爬虫。它综合抓取过程中获得的多方面的特征信息来进行分析,并运用概率模型计算每个URL的优先值,从而对URL进行过滤和排序。基于概率模型的主题爬虫解决了大多数爬虫抓取策略单一这个缺陷,它与以往主题爬虫的不同之处是除了使用主题相关度评价指标外,还使用了历史评价指标和网页质量评价指标,较好地解决了"主题漂移"和"隧道穿越"问题,同时保证了资源的质量。最后通过多组实验验证了其在主题网页召回率和平均主题相关度上的优越性。  相似文献   

9.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案。引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页。与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题。  相似文献   

10.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案.引入了结合文本内容的 PageRank 算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页.与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题  相似文献   

11.
本文针对现代制造业的经营策略和需求不断动态变化的情况,时现代虚拟企业提出了基于Internet的多agent智能制造系统的解决方案.主要内容包括基于Internet的IMS控制结构的建立、有关agent的层次划分,智能制造系统的构成框架以及具体智能agent单元任务分解与结点建立.  相似文献   

12.
本文介绍了IM与SMS的现状及其各自的技术特点.通过针对现有各IM系统协议标准不统一的现状,构架了C/S模式的IM应用程序,提出了类IMPP协议标准,使之应用于PDA端和IM服务器端之间的IM数据交互.同时在IM服务器端完成协议转换工作.通过分析短消息组帧格式以及关于收发短消息的AT指令,实现了在PDA上通过与之相连的手机收发SM,以及PDA与手机信息同步.  相似文献   

13.
基于DSP的SPWM变频调速系统的分析与设计   总被引:1,自引:0,他引:1  
分析和设计了采用TMS320LF2407型数字信号处理器(简称DSP)内部自带的事件管理模块中的比较单元,运用规则采样SPWM算法来输出高精度的三相SPWM波形的交流电动机变频调速系统,从而实现逆变器的SPWM控制。通过此方法实现的SP-WM交流电动机变频调速系统,充分利用了DSP的高度集成化、数字化、高速运算功能和丰富的片内外设资源,给出了SPWM交流电动机变频调速系统结构图和软件设计方案。  相似文献   

14.
《软件工程师》2016,(2):61-62
大学生实践能力培养是新形势下对高等教育提出的新课题。数据库技能作为信息管理与信息系统专业的核心技能,贯穿人才培养的始终。在全面分析数据库课程教学现状的基础上,结合CDIO工程教育理念对课程教学内容和教学模式进行了深入的调整与改革,并对考试与考核措施进行了具体的调整,与后续课程、小学期实践、毕业设计等环节紧密配合,提高教育效率,提高应用型人才培养质量。  相似文献   

15.
针对当前教务管理系统在运行过程中不稳定、后期维护困难等问题,提出了一种基于Struts和Hibernate框架的教务管理系统的解决方案。采用MVC体系结构,将整个系统分为表示层、业务处理层、数据持久层和数据库层,实现了用户界面、业务处理和数据访问的分离。该系统运行效率高,具有良好的稳定性、可扩展性和可维护性。  相似文献   

16.
基于Struts和Hibernate的教务系统研究与设计   总被引:1,自引:0,他引:1  
针对当前教务管理系统在运行过程中不稳定、后期维护困难等问题,提出了一种基于Struts和Hibernate框架的教务管理系统的解决方案.采用MVC体系结构,将整个系统分为表示层、业务处理层、数据持久层和数据库层,实现了用户界面、业务处理和数据访问的分离.该系统运行效率高,具有良好的稳定性、可扩展性和可维护性.  相似文献   

17.
压缩感知及其图像处理应用研究进展与展望   总被引:2,自引:0,他引:2  
任越美  张艳宁  李映 《自动化学报》2014,40(8):1563-1575
压缩感知理论(Compressed sensing,CS)通过少量的线性测量值感知信号的原始结构,并通过求解最优化问题精确地重构原信号.该理论减少了数字图像及视频 获取时的存储及传输代价,也为后续的图像处理及识别的研究提供了新的契机,促进了理论和工程应用的结合. 阐述了CS的基本原理,综述了其关键技术稀疏变换、观测矩阵 设计、重构算法的一系列最新理论成果和发展,深入分析和比较了CS理论应用到图像处理领域的研究和发展状况,总结了其中存在的问题,并对未来的应用前景进行了展望.  相似文献   

18.
利用NDIS HOOK与SPI相结合在Windows XP下设计了一个基于Winsock2 SPI与NDIS HOOK的网络数据包拦截方案。在应用层利用SPI进行各种应用程序的数据包的过滤,在核心层利用NDIS HOOK来过滤各种非Socket通信的数据包,实现底层的数据包的捕获,从而能更好地过滤数据。  相似文献   

19.
简单回顾了RBAC模型的概念以及属性证书的定义,从理论上探讨了如何应用X509v4标准的属性证书来实现基于角色的权限管理。在访问控制基本框架的和属性权威概念的基础上提出一个具体的RBAC系统,并分析了证书管理、角色指派、决策控制的各个环节。详细探讨了用于实现基于策略的RBAC所用到的一系列相互配合的策略及其之间的联系。  相似文献   

20.
基于Web的智能报表设计研究   总被引:1,自引:0,他引:1  
提出一种在ASP.NET应用程序下利用水晶报表与ADO.NET技术制作基于多数据库源及复杂统计下的Web报表的方法。针对多数据库源及复杂统计提出一种基于层次化的数据库结构的Web报表解决方案,并将该解决方案在珠海供电局线损系统中进行了实际应用。通过水晶报表导出Excel文件,并将这些文件当作数据库用ADO.NET技术进行读取,实现了Web报表的在多数据库源及复杂统计下的生成,在实际大型软件中应用取得了较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号