首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 839 毫秒
1.
基于链接分块的相关链接提取方法   总被引:1,自引:0,他引:1  
每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接。提出了一种基于链接分块的相关链接提取方法。首先,将网页按照HTML语言中标签将网页分成许多的块,从块中提取链接,形成若干链接块;其次,根据相关链接的成块出现,相关链接文字与其所在网页标题含相同词等特征,应用规则与统计相结合的方法从所有链接块中提取相关链接块。相关链接提取方法测试结果,精确率在85%以上,召回率在70%左右,表明该方法很有效。  相似文献   

2.
Spam网页主要通过链接作弊手段达到提高搜索排名而获利的目的,根据链接作弊的特征,引入链接相似度和作弊系数两个指标来判定网页作弊的可能性。借鉴BadRank算法思想,从Spam网页种子集合通过迭代计算链接相似度和作弊系数,并根据与种子集合的链接指向关系设置权重,将待判定的网页进行度量。最后选取Anti-Trust Rank等算法作对比实验,结果验证了本文算法在准确率和适应性方面优于对比算法。  相似文献   

3.
基于潜在链接分析的FTSVM网页分类   总被引:1,自引:0,他引:1  
王晔  黄上腾 《计算机工程》2006,32(10):12-14
回顾,模糊直推式模糊支持向量机(FTSVM)的不足,并提出了一种基于潜在链接分析并结合网页权重信息的FTSVM网页分类方法。新方法提高了分析网页超链接信息的效率,避免了经验参数的影响,充分考虑了网页权重的贡献。试验表明,提出的方法在网页基准测试数据上取得了优于FTSVM的分类效果。  相似文献   

4.
提出一种利用相邻网页信息修正分类结果的方法。这种方法首先利用NaiveBayes分类器分类待分类网页;其次对待分类网页做链接分析并计算页面与链出页面的相似度,对初始分类结果做修正,得到最终分类结果。根据该方法实现了网页自动分类原型系统,并进行分类实验,实验表明该方法有效提高了分类性能。  相似文献   

5.
传统的主题抽取方法单纯依靠分析网页内容的来自动获取网页主题,其分析结果并不十分精确.在WWW上,网页之间通过超链接来互相联系,而链接关系紧密的网页趋向于属于同一主题、基于这一思想,本文提出了一种利用Web链接结构信息来对主题抽取结果进行求精的方法,其通过所链接网页对本网页的影响来修正本网页的主题权值.本文还通过一个实际应用例子,分析了这一方法的特点。  相似文献   

6.
王有为  汪定伟 《控制与决策》2002,17(Z1):695-698
提出链接可达性和网页可达性的定义.为计算网页可达性,设计了计算到达网页路径的路径树生成算法(PTSA).基于极大化网页重要性与网页可达性之间相关性的链接结构设计思想,建立一种网站最优链接结构设计的数学模型,并提出将PTSA嵌入禁忌搜索的求解方法.实验结果表明,该方法可帮助网站设计者建设链接结构合理的电子超市网站.  相似文献   

7.
对于Web内容挖掘来说,对挖掘对象进行初步的识别是非常重要的,首先必须把含有具体内容的网页识别出来,才能进一步进行有效的分析。论文提出了链接比的概念,以此来分析网页的特征,然后进行有监督的学习,从而导出相关的规则,再用该规则对新的网页进行分类。  相似文献   

8.
韦莎  朱焱 《计算机应用》2016,36(3):735-739
针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分配(LDA)模型得到所有网页的主题分布,并计算相互链接网页间的主题相似度;其次,根据Web图计算链接权重,并与主题相似度结合,得到主题链接权重矩阵;然后,利用主题链接权重调节非信任值传播,改进Anti-TrustRank和加权非信任值排序(WATR)算法,使网页得到更合理的非信任值;最后,将所有网页的非信任值进行排序,通过划分阈值检测出垃圾网页。在数据集WEBSPAM-UK2007上进行的实验结果表明,与Anti-TrustRank和WATR相比,TLDR的SpamFactor分别提高了45%和23.7%,F1-measure(阈值取600)分别提高了3.4个百分点和0.5个百分点, spam比例(前三个桶)分别提高了15个百分点和10个百分点。因此,主题与链接权重相结合的TLDR算法能有效提高垃圾网页检测性能。  相似文献   

9.
王有为  汪定伟 《控制与决策》2002,17(11):695-698
提出链接可达性和网页可达性的定义,为计算网页可达性,设计了计算到达网页路径路的路径权地生成算法(PTSA)。基于极大化网页重要与网页可达性之间相关性的链接结构设计思想,建立一种网站最优链接结构设计的数学模型,并提出将PTSA嵌入禁忌搜索的求解方法。实验结果表明,该方法可帮助网站设计建设链接结构合理的电子超市网站。  相似文献   

10.
为了有效地检测垃圾网页,通过分析网页内容特征和链接特征的分布,发现正常网页特征分布有规律而垃圾网页特征分布散乱,根据正常网页特征分布与垃圾网页特征分布的不同,提出了用分布函数拟合正常网页特征分布,并计算正常网页和垃圾网页比例与分布函数的差值,以差值为阈值使用C4.5决策树对垃圾网页进行检测.实验结果表明,该方法能够有效地减少被错误分类的正常网页,提高准确率.  相似文献   

11.
针对传统PageRank算法存在的平分链接权重和忽略用户兴趣等问题,提出一种基于学习自动机和用户兴趣的页面排序算法LUPR。在所提方法中,给每个网页分配学习自动机,其功能是确定网页之间超链接的权重。通过对用户行为进一步分析,以用户的浏览行为衡量用户对网页的兴趣度,从而获得兴趣度因子。该算法根据网页间的超链接和用户对网页的兴趣度衡量网页权重计算每个网页的排名。最后的仿真实验表明,较传统的PageRank算法和WPR算法,改进后的LUPR算法在一定程度上提高了信息检索的准确度和用户满意度。  相似文献   

12.
当我们浏览网页时,在访问速度方面静态网页要明显比动态网页快得多,因此把一些关键性或经常访问的页面使用静态页技术做成静态页至关重要。在介绍什么是静态页生成技术之后分别以发布新闻和首页新闻条目处如何设计为例对静态页的生成作了详细的阐述,其中主要使用了文件对象来完成对文件生成、读取等操作,使用的技术为ASP。  相似文献   

13.
在制作网页的过程中,会发现预想的结果和实际预览网页时的效果有很大的区别,比如说网页在不同分别率预览时发生了改变、网页中的字体大小也在变化、图片上传后不能显示等等。在几年的网页教学中,笔者不断摸索,总结了一些经验和技巧供大家借鉴。  相似文献   

14.
每个网页中都存在许多超链接,很多网页的有用信息都存在于超链接中,如何有效地获取这些超链接成为Web挖掘的一个重要步骤。提出了利用HTMLParser开源工具实现Web页面解析,提取网页的超链接,从而获取有用信息,为下一步开发搜索引擎做准备。  相似文献   

15.
在制作网页的过程中,会发现预想的结果和实际预览网页时的效果有很大的区别,比如说网页在不同分别率预览时发生了改变,网页中的字体大小也在变化、图片上传后不能显示等等。在几年的网页教学中,笔者不断摸索,总结了一些经验和技巧供大冢借鉴。  相似文献   

16.
With the development of mobile technology, the users browsing habits are gradually shifted from only information retrieval to active recommendation. The classification mapping algorithm between users interests and web contents has been become more and more difficult with the volume and variety of web pages. Some big news portal sites and social media companies hire more editors to label these new concepts and words, and use the computing servers with larger memory to deal with the massive document classification, based on traditional supervised or semi-supervised machine learning methods. This paper provides an optimized classification algorithm for massive web page classification using semantic networks, such as Wikipedia, WordNet. In this paper, we used Wikipedia data set and initialized a few category entity words as class words. A weight estimation algorithm based on the depth and breadth of Wikipedia network is used to calculate the class weight of all Wikipedia Entity Words. A kinship-relation association based on content similarity of entity was therefore suggested optimizing the unbalance problem when a category node inherited the probability from multiple fathers. The keywords in the web page are extracted from the title and the main text using N-gram with Wikipedia Entity Words, and Bayesian classifier is used to estimate the page class probability. Experimental results showed that the proposed method obtained good scalability, robustness and reliability for massive web pages.  相似文献   

17.
ASP.NET下利用动态网页技术生成静态HTML页面的方法   总被引:1,自引:0,他引:1  
介绍了一种在ASP.NET环境下利用动态网页技术生成静态HTML页面的方法.利用这种技术,网站内容管理人员在添加网页时直接利用后台管理发布程序就把页面存放成HTML静态文件,它有生成页面简单、快速的优点.这种技术对于访问量大的网站尤其适用,可以减轻服务器端运行程序和读取数据库的压力,提高了网站的数据存取效率,生成的静态页面也更利于搜索引擎收录.  相似文献   

18.
了解用户的兴趣是电子商务网站实现个性化的基础,该文提出了一种分析用户兴趣度的新方法,该方法首先根据网站主索引页上的超链接将网站上的网页模糊分类,并通过对Web日志的统计,得出各交叉页的模糊度,然后综合考虑用户浏览网页的时间长度、点击网页的次数,利用模糊综合评判得出用户对于各网页分类的兴趣度,再与各网页分类的平均兴趣度水平作对比,从而发现用户的兴趣所在,实验表明该方法是有效的。  相似文献   

19.
邓健爽  郑启伦  彭宏 《计算机应用》2006,26(5):1134-1136
网页自动分类是当前互联网搜索领域一个热点研究课题,目前主要有基于网页文本内容的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息,没有考虑到网页所在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构进行简约的算法,提取网站隐含的层次结构,生成层次结构树,从而达到对网站内部网页实现多层次分类的目的,并且已经成功应用到电子商务智能搜索和挖掘系统中。  相似文献   

20.
基于标记树的Web页面区域划分和搜索方法   总被引:4,自引:0,他引:4  
胡飞 《计算机科学》2005,32(8):182-185
Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区域划分和搜索方法,让软件系统可以忽略别的区域,快速定位到主要内容。对于大量Web页面处理而言,这种方法可以起到减少时间,缩小空间的作用,Web页面越多,效果就越显著。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号