共查询到19条相似文献,搜索用时 453 毫秒
1.
2.
3.
主题爬虫是实现垂直搜索引擎的核心技术.介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于网页内容评价和基于网页链接关系算法结合起来判断待下载url的优劣,并实现了一个主题爬虫.这种新策略正好弥补了两个算法各自的不足.通过与Shark-Search算法和Hits算法实现的主题爬虫对比,发现用新算法实现的主题爬虫查准率比这两种算法高. 相似文献
4.
针对经典的PageRank算法存在的偏重历史网页、主题漂移、平分网页链接权重等缺陷,引入了向量空间模型和信息论中的信息熵,提出一种改进的PRKE算法.该算法用表征网页特征的关键词构成的向量来表示网页,用关键词在网页中所占的权重作为向量中各个分量的权值;对已存在的网页采用K-means聚类算法进行聚类,以信息熵的形式表征各个簇的权值,完成对网页的宏观排序;融入了时间因子和主题相关度等参数,完成对网页的微观排序.实验结果表明,改进的PRKE算法相对于经典的PageRank算法在首页命中率、检索准确性等方面获得了较大的提高. 相似文献
5.
网页分割技术是实现网页自适应呈现的关键。针对经典的基于视觉的网页分割算法VIPS(Vision-based Page Segmentation Algorithm)分割过碎和半自动的问题,基于图最优划分思想提出了一种新颖的基于视觉的网页最优分割算法VWOS(Vision-based Web Optimal Segmentation)。考虑到视觉特征和网页结构,将网页构造为加权无向连通图,网页分割转化为图的最优划分,基于Kruskal算法并结合网页分割的过程,设计网页分割算法VWOS。实验证明,与VIPS相比,采用VWOS算法分割网页的语义完整性更好,且不需要人工参与。 相似文献
6.
7.
8.
搜索结果的可靠性是影响广大网民使用搜索引擎的一项重要指标。在开源 OPIC 算法的基础上,提出了TS 算法,该算法通过基于索引属性的改进,加入网页的创建时间和网页深度两个属性,使得网页的评分不仅仅局限于网页的链接,实现了网页评分因素的多元化。而网页最后的排序分值在原有OPIC算法的基础上与网页创建时间成正比,与网页深度成反比,有效改善了OPIC算法偏重历史网页的缺点,使搜索结果更加合理。最后,对TS算法进行效果演化,经过与传统搜索结果的分析对比,显示本算法返回的结果具有更高的可靠性。 相似文献
9.
10.
针对Google使用的PageRank算法,提出一种改进的Web挖掘算法。实现该算法时,将网页使用信息和网页添加日期信息做成点击向量和日期向量,2个向量加权后标准化得到的一个向量作为常数加入到改进的迭代算法。实验结果证明,改进算法可以提高网页重要性判断的准确度。 相似文献
11.
一种基于语义理解的元搜索引擎的研究 总被引:5,自引:0,他引:5
通过对查询短语的结构分析,发现查询短语通常由关键词和特征词构成。特征词是对网页内容的概括,它预示着网页中包含一组特定的特征词条。基于该思想建立了面向Web网页内容的特征库。以元搜索引擎为研究对象,研究了以Web网页内容特征库为基础实现对查询短语进行语义理解的方法,提出了相关度级别的算法,对库中已收入的特征词进行了查询测试,查准率为86.7%。实验表明,该模型基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果。 相似文献
12.
13.
针对Web应用测试用例生成过程中导航图规模过大以及存在冗余测试路径的问题,提出了一种基于Selenium页面对象设计模式和图遍历算法的Web应用测试用例生成方法。首先,通过将原始页面对象进行分类,以导航页面对象类为节点、导航方法为迁移边构建页面对象导航图;其次,结合图的最短路径算法提出了一种页面对象图算法(POGA)来遍历导航图以生成测试路径集;最后,提取测试路径,利用Faker生成模拟数据,进一步生成可以直接执行的测试用例。实验结果表明:与爬取Web应用生成导航图的规模相比,该方法约简率约为89%;与基于状态迁移生成Web应用测试用例的方法相比,该方法减小了冗余和不可行路径的数量,并进一步提高了页面对象的复用率和测试用例的可维护性。 相似文献
14.
针对传统PageRank算法存在的平分链接权重和忽略用户兴趣等问题,提出一种基于学习自动机和用户兴趣的页面排序算法LUPR。在所提方法中,给每个网页分配学习自动机,其功能是确定网页之间超链接的权重。通过对用户行为进一步分析,以用户的浏览行为衡量用户对网页的兴趣度,从而获得兴趣度因子。该算法根据网页间的超链接和用户对网页的兴趣度衡量网页权重计算每个网页的排名。最后的仿真实验表明,较传统的PageRank算法和WPR算法,改进后的LUPR算法在一定程度上提高了信息检索的准确度和用户满意度。 相似文献
15.
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各“块”对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。 相似文献
16.
分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以TB甚至PB量级的数据,单机模式下的PageRank算法由于CPU、I/O和内存的开销过大导致效率低下。为此,提出一种基于MapReduce框架的并行PageRank算法。在算法的一次迭代过程中,利用Map函数对网页拓扑信息文件进行解析,使用Reduce函数计算网页得分,从而并行化PageRank算法的中间迭代过程。通过计算全局网页得分控制迭代次数,得到较精确的网页排序结果。实验结果表明,该算法在保持原有单机PageRank算法整体网页排序精度的基础上,具有较好的集群性能和较快的执行速度。 相似文献
17.
本文介绍了将MIS输出参数转换为Web网页的一些基本方法,并详细阐述了MIS的改造和控制网页的制作过程,对用CGI程序实现网页的交互式访问进行了认真的探讨。 相似文献
18.
基于多示例学习技术的Web目录页面链接推荐 总被引:2,自引:0,他引:2
在Web目录页面中,向用户推荐其感兴趣的链接有助于用户高效地访问网络资源.然而,用户往往不愿花费很多时间来标记训练样本,其提供的数据可能只能说明某个目录网页是否包含其感兴趣的内容,而不能明确标示出其感兴趣的具体链接.由于训练数据中缺乏对链接的标记,但预测时却需要找出用户感兴趣的链接,这就使得Web目录页面链接推荐问题相当困难.CkNN-ROI算法被提出用于解决该问题.实验表明,CkNN-ROI算法在解决这一困难的链接推荐问题上比其他一些算法更为有效. 相似文献
19.
《Pattern recognition letters》2013,34(13):1462-1469
Semi-automatic anti-spam algorithms propagate either trust through links from a set of good seed pages or distrust through inverse-links from a set of bad seed pages to the entire Web. It has been mentioned that a combined usage of both trust and distrust propagations can lead to better results. However, little work has been known to realize this insight successfully. In this paper, we view that each Web page has both a trustworthy side and an untrustworthy side, and propose to assign two scores for each Web page to denote its trustworthy side and untrustworthy side, respectively. We then propose the Good-Bad Rank (GBR) algorithm for propagating trust and distrust simultaneously from both directions. In GBR, the propagation of a page’s trust/distrust is decided by its probability of being trust/distrust. GBR takes advantages from both trust and distrust propagations, thus is more powerful than propagating only trust or distrust. Experimental results show that GBR outperforms other typical link-based anti-spam algorithms that propagates only trust or distrust. GBR achieves comparable performance than another algorithm that propagates both trust and distrust, TDR, but is much more efficient than TDR. 相似文献