期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘景发李帆蒋盛益《计算机科学》2019,46(2):215-222

如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主题相关度、链接指向网页PR值和该网页主题相关度的综合计算,提出了基于网页内容和链接结构相结合的超链接综合优先度评估方法。同时,针对搜索过程易陷入局部最优的不足,首次设计了结合爬虫记忆历史主机信息和模拟退火的网络主题爬虫算法。以暴雨灾害为主题进行爬虫实验的结果表明,在爬取相同网页数的情况下,相比于广度优先搜索策略(Breadth First Search,BFS)和最佳优先搜索策略(Optimal Priority Search,OPS),所提出的算法能抓取到更多与主题相关的网页,爬虫算法的准确率得到明显提升。相似文献

2.

基于遗传算法的主题爬虫

张海亮袁道华《计算机技术与发展》2012,(8)

针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案.引入了结合文本内容的 PageRank 算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页.与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题相似文献

3.

基于遗传算法的主题爬行技术研究 总被引：3，自引：0，他引：3

关慧芬师军马继红《计算机与数字工程》2008,36(10)

针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页. 相似文献

4.

基于领域本体的网络爬虫

林春杰金苗娟《电脑编程技巧与维护》2020,(5):20-22

主题爬虫能够高效的获取特定主题的网页,是垂直搜索引擎核心技术之一。提出了一个基于领域本体的主题爬虫框架,借助基于领域本体的相关度计算方法预测链接主题的相关度和网页内容与主题的相关度,决定爬虫的下一步爬行路径,以便于尽可能缩小搜索路径。对比实验表明,提出的方法能够有效提高主题爬虫网页抓取的准确率和查全率。相似文献

5.

基于遗传算法的主题爬虫

张海亮袁道华《微机发展》2012,(8):48-52

针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案。引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页。与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题。相似文献

6.

基于内容与链接分析的主题爬虫研究与设计

舒奔尹珂《计算机与现代化》2014,(4):77

现存主题爬虫算法在抓取主题网页方面,其准确性不是很高。本文提出一种基于文本内容评价与网页链接评价的主题网页抓取方法。首先计算当前网页与主题的相关度,然后将相关度值与给定阈值进行比较决定当前网页是丢弃还是存储,同时相关度值的大小也决定了待爬链接队列中URL的优先权,此模型考虑了主题网页的准确率与覆盖率之间的平衡。新设计的主题爬虫算法在抓取主题网页方面,其准确性有一定程度的提高。相似文献

7.

基于遗传算法的主题爬虫策略 总被引：3，自引：0，他引：3

刘国靖康丽罗长寿《计算机应用》2007,27(Z2):172-174

针对目前主题搜索策略的不足,通过改进遗传算子提出了一种新的主题爬虫策略,即通过变异操作引入新的URL扩大搜索范围;通过交叉操作产生大量的URL;通过选择操作选出适应度高的个体作为下一代的种子.实验结果表明,基于遗传算法的主体搜索策略GA与BFS和OPS相比,爬虫策略取网页中的主体相关网页数量多,在合理选择种子集合时,能抓取大量的主体相关度高的网页. 相似文献

8.

改进空间向量模型主题网络爬虫系统

徐明子吕立李喜旺《计算机系统应用》2013,22(7):36-39,52

详细阐述了主题网络爬虫实现的关键技术, 将传统的空间向量模型进行改进形成自适应的空间向量模型, 结合网页内容和链接两个方面进行网页相关度计算, 设计并实现了一个面向主题的网络爬虫系统. 针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略. 最后给出实验结果, 证明该系统的可行性及优越性. 相似文献

9.

结合文本密度的语义聚焦爬虫方法

《计算机应用与软件》2019,(9)

针对聚焦爬虫网页核心内容提取算法准确性偏低以及相似度计算模型语义信息考虑不充分造成的爬取准确度和效率偏低的问题,提出结合文本密度的语义聚焦爬虫方法。引入核心内容提取算法,使用标题结合LCS算法定位核心内容文本的起始和终止位置,提取网页核心内容。引入基于Word2vec的主题相关度算法计算核心内容的主题相关度,改进PageRank算法计算链接主题重要度。结合主题相关度和主题重要度计算链接优先级。此外,为提高聚焦爬虫的全局搜索性能,结合主题词使用搜索引擎扩展链接集。与通用爬虫和多种聚焦爬虫相比,该方法爬虫爬取准确度和效率更优。相似文献

10.

融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法

刘景发顾瑶平刘文杰《计算机应用》2020,40(8):2255-2261

针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略（On-ITS）的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言（HTML）网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。相似文献

11.

Improving the performance of focused web crawlers

Sotiris Euripides G.M. Evangelos 《Data & Knowledge Engineering》2009,68(10):1001-1013

This work addresses issues related to the design and implementation of focused crawlers. Several variants of state-of-the-art crawlers relying on web page content and link information for estimating the relevance of web pages to a given topic are proposed. Particular emphasis is given to crawlers capable of learning not only the content of relevant pages (as classic crawlers do) but also paths leading to relevant pages. A novel learning crawler inspired by a previously proposed Hidden Markov Model (HMM) crawler is described as well. The crawlers have been implemented using the same baseline implementation (only the priority assignment function differs in each crawler) providing an unbiased evaluation framework for a comparative analysis of their performance. All crawlers achieve their maximum performance when a combination of web page content and (link) anchor text is used for assigning download priorities to web pages. Furthermore, the new HMM crawler improved the performance of the original HMM crawler and also outperforms classic focused crawlers in searching for specialized topics. 相似文献

12.

半结构化网页中多记录信息的自动抽取方法 总被引：1，自引：0，他引：1

朱明王庆伟《计算机仿真》2005,22(12):95-98

从多记录网页中准确的自动抽取出需要的信息，是Web信息处理中的一个重要研究课题。针对现有方法对噪声敏感的缺点，该文提出了基于记录子树的最大相似度发现记录模式的思想，以在同类记录的表现模式存在一定差异的情况下正确识别记录。在此基础上，实现了多记录网页自动抽取系统，该系统可以从多个学术论文检索网站中，自动获取结果网页，并自动抽取其中的记录。对常见论文检索网站的实验表明了该系统具有较好的有效性和准确性。相似文献

13.

基于Lucene的中文全文检索系统的研究与设计 总被引：4，自引：0，他引：4

索红光孙鑫《计算机工程与设计》2008,29(19)

提出了一种基于Lucene的中文全文检索系统模型.通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度.在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率.实验数据表明,该系统在检索中文网页时,在效率,精度和结果处理等方面性能明显提高. 相似文献

14.

基于文本过滤的Web页面检索研究

ZHANG Xia 《数字社区&智能家居》2008,(26)

文本过滤是信息过滤的一个研究分支,信息过滤随着信息检索的发展而受到关注,它是一个寻找人们感兴趣的信息的处理过程。为了提高检索web页面的效率,把原型web页面集合预处理为有结构的页面集,然后再进行快速分类处理。相似文献

15.

面向分层结构的网页分类与抓取

王振宇唐远华郭力《计算机工程与科学》2012,34(11):1-6

传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。相似文献

16.

基于主题特征和时间因子的改进PageRank算法 总被引：2，自引：0，他引：2

段淮川胡平《计算机工程与设计》2010,31(4)

经典PageRank算法单纯地考虑到对网页的链接结构进行分析,而不能考虑到网页在搜索主题方面的相关性和权威性,以及用户对新旧网页的依赖程度的不同.针对经典PageRank算法存在的上述缺陷,综合网页的主题特征和时间特征两个因素,提出了一种改进的PageRank算法WTPR(weighmd topic PageRank).该算法通过网页链接分析和内容分析来解决网页的权威程度和相关程度,通过时间因子实现PageRank值随时间的变动而浮动.仿真结果表明,改进后的算法与PageRank算法相比获得了更好的效果. 相似文献

17.

Interactive knowledge management for agent-assisted web navigation

Vincenzo Loia Witold Pedrycz Sabrina Senatore Maria I. Sessa 《国际智能系统杂志》2007,22(10):1101-1122

Web information may currently be acquired by activating search engines. However, our daily experience is not only that web pages are often either redundant or missing but also that there is a mismatch between information needs and the web's responses. If we wish to satisfy more complex requests, we need to extract part of the information and transform it into new interactive knowledge. This transformation may either be performed by hand or automatically. In this article we describe an experimental agent-based framework skilled to help the user both in managing achieved information and in personalizing web searching activity. The first process is supported by a query-formulation facility and by a friendly structured representation of the searching results. On the other hand, the system provides a proactive support to the searching on the web by suggesting pages, which are selected according to the user's behavior shown in his navigation activity. A basic role is played by an extension of a classical fuzzy-clustering algorithm that provides a prototype-based representation of the knowledge extracted from the web. These prototypes lead both the proactive suggestion of new pages, mined through web spidering, and the structured representation of the searching results. © 2007 Wiley Periodicals, Inc. Int J Int Syst 22: 1101–1122, 2007. 相似文献

18.

基于DIV+CSS的网页布局技术应用

车元媛《数字社区&智能家居》2011,(9)

该文通过对DIV和CSS技术的特点与CSS盒子模型的介绍,解析了采用DIV+CSS进行网页布局能使网页的表现和内容相分离、代码简洁、方便搜索引擎搜索、提高网页传输速率和易于网页的更新与维护等优势。而且通过具体实例给出了DIV+CSS网页布局技术的流程和方法。相似文献

19.

VN-KIM IE: Automatic Extraction of Vietnamese Named-Entities on the Web

Truc-Vien T. Nguyen Tru H. Cao 《New Generation Computing》2007,25(3):277-292

The most fascinating advantage of the semantic web would be its capability of understanding and processing the contents of web pages automatically. Basically, the semantic web realization involves two main tasks: (1) Representation and management of a large amount of data and metadata for web contents; (2) Information extraction and annotation on web pages. On the one hand, recognition of named-entities is regarded as a basic and important problem to be solved, before deeper semantics of a web page could be extracted. On the other hand, semantic web information extraction is a language-dependent problem, which requires particular natural language processing techniques. This paper introduces VN-KIM IE, the information extraction module of the semantic web system VN-KIM that we have developed. The function of VN-KIM IE is to automatically recognize named-entities in Vietnamese web pages, by identifying their classes, and addresses if existing, in the knowledge base of discourse. That information is then annotated to those web pages, providing a basis for NE-based searching on them, as compared to the current keyword-based one. The design, implementation, and performance of VN-KIM IE are presented and discussed. 相似文献