首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
有很多不同的分块算法都可以对web网页进行分块.研究分块的1/1的是为了相关领域进一步研究的需要。例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存档等。首先给出Web页面分块问题定义和分类,并对几种典型的分块算法进行原理剖析,为进一步研究web页面分块问题提供一些有益的参考。  相似文献   

2.
李莹  吴晓军 《微机发展》2011,(10):112-115
针对Web结构挖掘算法容易出现“主题漂移”以及主机间的多重互相加强关系的问题,提出了一种基于最大流与页面相似度值的超链接结构挖掘方法。该方法在传统的超链接结构挖掘算法HITS的基础上引入页面相似度值构造邻接矩阵,并结合基于最大流的Web社区发现技术来构建特征向量空间模型,通过迭代计算最终获得价值最高的权威结果集和中心结果集。实验结果证明该方法有较好的查准率与查全率,并有效抑制了“主题漂移”现象,具有一定的实用价值。  相似文献   

3.
Web日志挖掘预处理中的Frame页面过滤算法   总被引:12,自引:0,他引:12  
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式,在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法-Frame页面过滤算法消除其影响。通过实验数据对该算法进行验证,说明Frame页面过滤算法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

4.
针对PageRank算法忽略了页面内容的不足,根据用户浏览页面的习惯,将Web内容挖掘的页面相似度引入到算法中,对其进行改进。实验结果表明,改进后的算法可以使页面的PageRank值依据页面相似度发生变化,符合人们的一般期望,效果明显有效。  相似文献   

5.
基于页面聚类的推荐算法常被应用在个性化推荐系统中,但是很少考虑页面访问的顺序性.针对这种弊端,提出了一种新的路径相似度系数,同时在推荐算法中运用了关联规则,提高了推荐结果的准确性.  相似文献   

6.
基于简单树匹配算法的Web页面结构相似性度量   总被引:1,自引:0,他引:1  
网页结构相似性的度量是Web信息处理中的一项重要任务,在数据抽取和搜索引擎等研究领域有着潜在的重要研究价值.好的相似性度量方法可以提高数据抽取的准确率和速度,还可以提高搜索引擎的速度,提高返回数据的质量,减少大量冗余数据占据的存储空间.实现该任务的已有算法往往存在着计算复杂度过高的问题,针对这一问题研究HTML文档标签特点,减少传统算法中使用的算子,进而采用简单树匹配算法来计算Web文档之间的结构相似度.简单树匹配不允许结点的替换和跨层匹配,从而大大提高了算法的运行效率.实验结果表明,所提出的方法不论在速度还是精度上都优于著名的Bag of XPaths方法.  相似文献   

7.
Web服务发现是Web服务系统架构中重要的组成部分。传统的Web服务发现只是简单的基于关键字的语法匹配,服务的查全率和查准率有着明显的不足。本文在对概念及概念间的关系进行精确描述的基础上,对语义Web服务相似度计算方法进行了研究,提出了一种基于语义距离的Web服务匹配算法。  相似文献   

8.
高校门户网站的页面样式主要可以概括为"简约式"、"图片式"和"俱全式"三大类。不同的网站页面样式,具有不同的特征、特点,需要网站设计者根据网站设计要求灵活选择和运用。设置"分角色浏览"、"Banner图说"和"自适应网页设计",是优秀高校门户网站页面样式的特色功能设计,也是其页面样式设计的亮点之处和成功所在。  相似文献   

9.
李立耀 《福建电脑》2007,(10):109-110
Web数据挖掘是分析网络应用的主要手段.其数据源一般是网络服务器日志,然而日志记录的是杂乱的、不完整的、不准确的并且是非结构化的数据,必须进行数据预处理.本文将预处理过程分为4个阶段:数据净化、用户识别、会话识别、路径补充,并提出了一个高效的Web数据挖掘预处理结构和相应的算法.  相似文献   

10.
基于Web标准的页面分块算法研究   总被引:1,自引:0,他引:1  
页面分块在文档分类,信息抽取,主题信息采集,以及搜索引擎优化等方面具有重要的作用.首先提出了一种基于Web标准的页面分块算法,通过对网页进行解析和布局分析,利用Web标准对网页进行分块.实验证明该算法在对遵循Web标准的网页进行分块时,在分块准确性和复杂页面适应性方面得到了提高.  相似文献   

11.
应用模糊方法的设计模式挖掘策略研究   总被引:1,自引:0,他引:1       下载免费PDF全文
从系统源码中挖掘设计模式对软件的可理解性和可维护性具有重要意义。基于模糊理论,提出一种模式匹配方法,实现设计模式挖掘。其中,使用基于类关系的素数矩阵模型对设计模式结构及源码信息进行描述,并作为匹配的模型基础;采用聚类方法对源码模型进行优化,提高匹配效率;将模糊方法与设计模式匹配策略相结合,引入静态和动态信息,提高匹配的正确性。实验结果证明此方法在精确性和完整性方面得到了很大的提高,并且避免了对特殊模式的失效性。  相似文献   

12.
Web信息抽取中需要对目标网站的网页进行聚类分析,以检测并生成信息抽取所需的模板。传统的基于DOM树编辑距离的网页聚类算法不适合文档对象模型(DOM)树结构复杂的动态模板网页,提出了一种基于局部标签树匹配的改进网页聚类算法,利用标签树中模板节点和非模板节点的层次差异性,根据节点对布局影响的大小赋予节点不同的匹配权值,使用局部树匹配完成对网页结构相似性的有效计算。实验结果表明,改进的算法较传统的基于DOM树编辑距离的网页聚类算法,在对采用模板生成的动态网页进行聚类分析时具有更高的准确率,且时间复杂度低。  相似文献   

13.
网络时代,几乎每天都有大量的网页掠过人们的眼帘。当然,只有那些有特色的网页才能钩住网民的眼睛,那么,网页是否精彩取决于什么呢?色彩的搭配、文字的变化、图片的处理等,这些当然是不可忽略的因素,除了这些,还有一个非常重要的因素——网页的布局。  相似文献   

14.
网络时代,几乎每天都有大量的网页掠过人们的眼帘。当然,只有那些有特色的网页才能钩住网民的眼睛,那么,网页是否精彩取决于什么呢?色彩的搭配、文字的变化、图片的处理等,这些当然是不可忽略的因素,除了这些,还有一个非常重要的因素——网页的布局。  相似文献   

15.
针对结构化程度差、表达形式各异的文本数据,提出了一种基于文本信息的故障序列模式挖掘算法,用于发掘故障之间的时序关系。为从文本记录的故障信息中挖掘故障规律,首先将文本信息向量化,对故障文本信息进行相似度衡量,将表达相同意义的故障归为一类。在此基础上根据故障特性,提出最大窗口阈值、最小共现度阈值的概念,构建故障序列模式挖掘算法框架。最后对某型飞机文本故障信息进行序列模式挖掘,找出了正确的故障序列关系。实例验证了所提算法是正确有效的。  相似文献   

16.
针对传统网页排序算法Okapi BM25通常会出现网页与查询关键词领域无关的领域漂移现象,以及改进算法需要人工建立领域向量的问题,提出了一种基于BM25和Softmax回归分类模型的网页搜索排序算法。该方法首先对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示,之后通过少量的网页数据来训练Softmax回归分类模型,来预测测试网页数据的类别分数,并与BM25信息检索的分数结合在一起,得到最终的网页排序结果。实验结果显示该检索算法无须人工建立领域向量,即可达到很好的网页排序结果。  相似文献   

17.
直接对生物序列进行频繁模式挖掘会产生很多冗余模式,闭合模式更能表达出序列的功能和结构。根据生物序列的特点,提出了基于相邻闭合频繁模式段的模式挖掘算法-JCPS。首先产生闭合相邻频繁模式段,然后对这些闭合频繁模式段进行组合,同时进行闭合检测,产生新的闭合频繁模式。通过对真实的蛋白质序列家族库的处理,证明该算法能有效处理生物序列数据。  相似文献   

18.
Given a text T and a pattern P, the order-preserving pattern matching (OPPM) problem is to find all substrings in T which have the same relative orders as P. The OPPM has been studied in the fields of finding some patterns affected by relative orders, not by their absolute values. In this paper, we present a method of deciding the order-isomorphism between two strings even when there are same characters. Then, we show that the bad character rule of the Horspool algorithm for generic pattern matching problems can be applied to the OPPM problem and we present a space-efficient algorithm for computing shift tables for text search. Finally, we combine our bad character rule with the KMP-based algorithm to improve the worst-case running time. We give experimental results to show that our algorithm is about 2 to 6 times faster than the KMP-based algorithm in reasonable cases.  相似文献   

19.
模式匹配在计算机应用中扮演着很重要的角色。通过分析BM,BMH和BMHS算法及相关改进算法,提出BMHS算法的改进算法(DBMHS)。该算法(DBMHS)充分利用模式串两端字符,通过比较模式串两端字符的跳转距离来实现更大距离的跳转。实验证明,改进后的算法显著增加了匹配窗口的跳转距离,有效地提高了匹配效率。  相似文献   

20.
基于WM算法的多模式匹配改进算法WMN   总被引:1,自引:0,他引:1       下载免费PDF全文
入侵检测系统中有部分时间用来进行模式匹配,因此提高模式匹配算法的处理速度具有重要的意义。从两个方面改进了目前公认效率较高的多模式匹配算法WM,设计出WMN算法,并对该算法进行了性能测试和分析。实验证明该文提出的WMN算法能够有效提高模式匹配的处理速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号