首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 72 毫秒
1.
Web页面相似度搜索对于网络新闻推荐、近似查询等研究领域具有重要作用。SimRank是经典的相似度计算模型,但其预计算时间和空间开销非常巨大,不适用大规模Web页面网络。利用SimRank快速收敛的特点,在SimRank基础上提出高效Web页面相似度搜索方法(WSR),预计算1步迭代相似度矩阵,根据预计算的1步迭代相似度矩阵在线计算给定查询页面和其他页面的2步迭代相似度。通过对Web网络进行静态剪枝,进一步提高预计算和在线查询处理的效率。实验结果显示,WSR显著降低了存储开销和预计算时间开销,且具有较高精确度和快速查询响应时间。  相似文献   

2.
针对PageRank算法忽略了页面内容的不足,根据用户浏览页面的习惯,将Web内容挖掘的页面相似度引入到算法中,对其进行改进。实验结果表明,改进后的算法可以使页面的PageRank值依据页面相似度发生变化,符合人们的一般期望,效果明显有效。  相似文献   

3.
分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的Web信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则的算法。  相似文献   

4.
现有的Web测试是由前端出发,通过分析页面DOM结构来获取状态与状态跳转的条件。但现有技术是将任何DOM节点的改变都认定为产生了新的DOM树,如果对于任何改变DOM结构的操作都认为是新操作来重新生成测试用例会浪费相当的时间和人力。提出一种基于页面DOM相似度的Web应用单元测试方法。利用爬虫程序获取页面状态与相应的DOM结构;利用DOM相似度对DOM进行评价,并对DOM状态进行分类,利用分类簇的中心作为相应功能的操作结果,返回应用中寻找相应的代码块并且进行测试。实验结果表明:该方法可以有效地降低“单一DOM对应单一状态”模式中的冗余状态跳转,可以达到合理的功能发现率,同时有效降低冗余的待测试状态。  相似文献   

5.
根据Web日志中的浏览时间、服务器发送字节数信息和统计所得的页面浏览频度计算页面兴趣度,并结合模糊理论,生成模糊关联规则,提出了一个预测用户浏览兴趣的方法.实验表明,该方法是可行的并且具有较好的效果.  相似文献   

6.
基于页面聚类的推荐算法常被应用在个性化推荐系统中,但是很少考虑页面访问的顺序性.针对这种弊端,提出了一种新的路径相似度系数,同时在推荐算法中运用了关联规则,提高了推荐结果的准确性.  相似文献   

7.
周勇  刘锋 《微机发展》2008,18(3):151-153
Web站点是由许多Web页面构成的信息系统,随着网络的飞速发展,Web挖掘得到了越来越多的研究。如何从Web中找到与用户查询主题相关的权威页面,是Web结构挖掘的一个重要研究方向。粗糙集理论作为一种有效处理模糊和不确定信息的数学工具,由于其不需要任何先验知识,在数据挖掘领域取得了广泛的应用。文中概述了Web结构挖掘的有关概念,基于粗糙集理论,定义了Web结构挖掘的数据模型,并给出了基于粗糙集的Web结构挖掘的实现流程,分析说明了该方法的性能。  相似文献   

8.
Web结构挖掘中基于熵的链接分析法   总被引:1,自引:0,他引:1  
王勇  杨华千  李建福 《计算机工程与设计》2006,27(9):1622-1624,1688
在Web结构挖掘中,传统的HITS(hyperlinkinducedtopics search)算法被广泛应用来寻找搜索引擎返回页面中的Auto-rity页面和Hub页面.但是在网站中除了有价值的页面内容外,还有很多与页面内容无关的链接,如广告、链接导航等.由于这些链接的存在,应用HITS算法时就会导致某些广告网页或无关网页获得较高的Authority值和Hub值.为了解决这个问题,在原有HITS算法的基础上,引入了香农信息熵的概念,提出了基于熵的网页链接分析方法来挖掘网页结构.该算法的核心思想是用信息熵来表示链接文本所隐含的知识.  相似文献   

9.
具有相似功能的Web应用,其页面样式和布局往往存在很大的相似性。针对当前Web页面开发复杂度高且效率低的情况,提出一种挖掘现有页面布局结构和样式属性的方法来实现Web页面自动化设计。该方法充分利用Web网页布局结构上的特点,采用分级处理的方式,首先利用页面分块算法思想通过相似度计算挖掘出具有相似性的代码块,其次通过结合RoSunday方法解析样式文件快速匹配出节点集合对应的样式表并建立文档模型树结构,各个子模块之间的相互组合可以实现页面的自动化设计。通过应用实例表明,该方法能动态地设计并生成页面,有效提升Web页面开发效率。  相似文献   

10.
基于页面内容和站点结构的页面聚类挖掘算法   总被引:16,自引:0,他引:16  
提出了结合站点拓扑结构和Web页面内容的页面聚类改进算法,改进算法引入Web页面的内容链接比和页组的组内链接度,并修改了频繁访问页组支持度的计算公式,以此来提高挖掘结果的兴趣性.通过实验数据的比较,改进算法较一般算法的收敛性好,发现的频繁访问页组的兴趣性高.  相似文献   

11.
基于网站结构挖掘的Web文档自动分类   总被引:3,自引:0,他引:3  
对Web文档进行人工分类可以达到准确的分类效果,但需要大量的时间和人力的投入。传统的基于特征向量的分类方法准确性较低,文中提出把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式,再将多个网站的分类模式进行综合,生成搜索引擎的分类模式。  相似文献   

12.
Web逻辑域挖掘是当前Web挖掘领域的研究热点之一,它强调从网站设计者的角度来挖掘站点中有逻辑联系的网页,以形成一个逻辑域,而不是单纯的文本聚类或超链排序。随着应用的不同,站点逻辑域的界定也有所不同。在综合分析了几种具有代表性的站点逻辑域及其挖掘方法后,提出了基于网页分块聚类的Web站点逻辑域挖掘模型和挖掘算法。实验结果表明,该算法具有很好的稳定性和适应性,其精度不受站点规模、语言、镜像等因素的影响,召回率则会随着取回网页数目的增加而增加。  相似文献   

13.
熊忠阳  蔺显强  张玉芳  牙漫 《计算机工程》2013,(12):200-203,210
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。  相似文献   

14.
杨长春  孙婧 《计算机工程》2010,36(24):45-47
对Web用户的访问序列进行分析,可以发现用户的爱好、兴趣、习惯等因素,为Web网站的升级修正提供必要的信息支持,提出一种通过对用户访问序列进行分析的数据挖掘方法,该方法采用网页驻留时间为参数来约减会话序列中的网页数,压缩频繁访问序列的规模。实验结果表明,该算法可以降低挖掘成本,为Web用户的商业数据挖掘提供有益的借鉴。  相似文献   

15.
对万维网上大量的网页之间进行特定语义关系的分析,将这样的工作用于搜索引擎中,可以实现智能化的查询,和提供其它个性化服务。本文借助于Ontology中的关系实例,在网页分类的基础上对网页之间的关系进行自动识别,同时提出了网页关系识别规则的自动生成和优化方法。  相似文献   

16.
Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,采用我们提出的度量标准得到的结果准确性更高,更接近于用户浏览兴趣。  相似文献   

17.
基于内容相似度的网页正文提取   总被引:6,自引:0,他引:6       下载免费PDF全文
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

18.
设计实现了一种从Web日志挖掘用户频繁访问路径的模型.提出网页聚类分析的一个重要基础理论,以及页面价值和跳转偏爱度的概念,并建立页面价值模型.该模型从页面价值-用户矩阵计算出页面价值间的加权欧氏距离,并由距离大小获得等价值页面集.再根据跳转偏爱度把等价值页面集转化为2-项频繁访问子路径集,并经过自适应的合并算法得到最终的频繁访问路径集.实验证明该页面价值模型能高效获得更精准的频繁访问路径.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号