共查询到20条相似文献,搜索用时 125 毫秒
1.
随着互联网的快速发展与搜索引擎的广泛使用,网页数据已经成为各种应用与研究的重要数据源之一。然而由于网页的特殊性,它所包含的信息并非都是各种应用所必需,例如:广告,导航条等。它们的存在会对各种应用产生不利影响。此外,网页检索结果中经常出现内容相同的冗余页面的问题。所以在网页数据的应用过程中网页净化、网页去重是一个基础问题,也是目前研究的一个热点问题。所以很有必要对网页净化和网页去重领域进行总结,以便更好地深入研究。从网页净化、去重的必要性出发,对它们进行定义和分类,概述多种网页净化、去重的方法和框架,并对其进行总结。 相似文献
2.
三角网格曲面去噪是计算机图形学领域一个经典问题,近年来不断涌现出各种新的去噪方法.该文主要关注保持特征的三角网格曲面去噪技术,总结了三角网格的几何表示以及一系列特征结构,依据算法类型将现有去噪技术分为优化法、滤波法、数据驱动法3类.针对不同的去噪模型和所利用的网格属性,对各分类下的去噪方法进行分析、讨论;简述了4类常用评估准则,从尖锐特征保持能力、体积保持、异常值去除能力、有无顶点漂移现象、有无面片翻转现象5个方面展示不同算法的优缺点;并根据这些算法存在的共性问题提出三角网格曲面去噪技术发展方向. 相似文献
3.
4.
由于Web上网页的急剧增加,信息搜索与挖掘越来越引起人们的重视。然而网页中除了主题信息外,还有噪声信息,从而网页净化技术受到越来越多的研究人员的关注,并提出了各种算法。借鉴人工免疫系统在计算机网络入侵检测中的应用,提出了一种基于AIS的网页去噪算法。同时对网页中的数据进行了异常识别的非线性研究。 相似文献
5.
数据去噪声是信号和图像处理领域的一个经典问题,广泛应用于各类工程实践中。由于噪声源的多样性,去噪一直是富有挑战性且十分活跃的研究课题,发展了多种经典去噪方法。近年来,随着压缩感知理论的发展,基于稀疏表示及正则化约束反问题求解方法成为图像去噪领域的重要发展方向和技术途径。本文首先回顾和总结图像噪声的来源和类型,然后针对不同类型的图像噪声,重点围绕基于稀疏表示及正则化约束的图像去噪技术进行全面综述,分析和描述了几种主要去噪方法的原理及优缺点。最后,对去噪算法的性能评价指标进行总结。 相似文献
6.
朱逢春 《电子制作.电脑维护与应用》2015,(8)
在网页文本信息自动采集的实际应用中,网页检索采集到的资源存在着大量与网页主题内容无关的"噪音"信息,本文主要内容是研究基于DOM树的网页去噪技术,通过对网页结构的转化,将网页转化成DOM树,在此基础上过滤掉网页噪音信息,提取网页文本的正文内容。 相似文献
7.
8.
9.
10.
在传感器网络研究领域中,去除感知数据含有的噪声是个重要的研究课题。现存的去噪算法没有考虑节点密度不均匀及信息拥塞的情况,从而过多地消耗了能量。考虑这两个因素,使用时间维加权的方法,提出了一个基于节点密度的网内自适应去噪算法-DHA(density-based hybrid approach)。DHA能够根据节点密度来进行算法决策,并且在时间维进行加权,能够对数据变化作出快速反应并且提高数据精度。实验结果表明,DHA方法能够在保证良好的去噪效果、快速响应时间的前提下,比目前最好的去噪算法WMA(weighted moving average-based)更节省能量。 相似文献
11.
12.
Web模糊聚类方法及其应用 总被引:5,自引:0,他引:5
本文提出了Web模糊聚类的概念,给出了Web模糊聚美的过程模型WFCM并进行了详细阐述,沦述了Web模糊聚类在Web访问信息挖掘中,尤其是在Web用户聚类和Web页面聚类方面的应用.最后用实例证明了在Web页面聚类中使用Web模糊聚类的可行性。 相似文献
13.
在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法。将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取。实验结果表明,本算法的适用性强、正确率较高。 相似文献
14.
有很多不同的分块算法都可以对web网页进行分块.研究分块的1/1的是为了相关领域进一步研究的需要。例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存档等。首先给出Web页面分块问题定义和分类,并对几种典型的分块算法进行原理剖析,为进一步研究web页面分块问题提供一些有益的参考。 相似文献
15.
16.
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。 相似文献
17.
Web使用挖掘是近年来Web数据挖掘中的研究热点。针对传统遗传算法在提取关联规则问题时常采用固定染色体交叉概率和染色体变异概率,容易出现早熟、收敛速度较慢的问题,提出了改进的遗传算法,并在关联规则的提取中增加了用户页面兴趣度这一阈值,成功地运用到某商业网站服务器日志挖掘。实验证明,这种改进的遗传算法能够有效避免早熟收敛现象,是一种有效的方法。 相似文献
18.
基于多示例学习技术的Web目录页面链接推荐 总被引:2,自引:0,他引:2
在Web目录页面中,向用户推荐其感兴趣的链接有助于用户高效地访问网络资源.然而,用户往往不愿花费很多时间来标记训练样本,其提供的数据可能只能说明某个目录网页是否包含其感兴趣的内容,而不能明确标示出其感兴趣的具体链接.由于训练数据中缺乏对链接的标记,但预测时却需要找出用户感兴趣的链接,这就使得Web目录页面链接推荐问题相当困难.CkNN-ROI算法被提出用于解决该问题.实验表明,CkNN-ROI算法在解决这一困难的链接推荐问题上比其他一些算法更为有效. 相似文献
19.
在信息检索领域,数据抽取技术已成为研究重点之一。提出一种基于DOM树的Web数据对象自动抽取方法。该方法首先将网页解析为DOM树,然后将结构相似的子树抽取出来作为候选数据对象,接着再计算候选数据对象的内容相似度,内容相似度低的则为数据对象。实验证明该方法能够有效地将各种Web数据对象从网页中抽取出来,召回率和准确率都比较高,且该方法独立于领域,独立于Web数据对象的表示形式,较好地解决了Web数据对象的抽取问题。 相似文献
20.
电子商务是随着网络的发展产生的一种新兴事物,电子商务的迅速崛起,使得不管是商家还是客户对基于Web数据检索、挖掘等需求不断提高。目前静态结构的Web页面显然已经被众多个性化的动态结构站点所代替。网站如何根据Web服务器日志文件,客户交易数据中挖掘出有意义的用户访问模式和潜在的客户群,为企业提供全方位信息服务和开展有针对性的电子商务活动。针对电子商务方面论述了数据挖掘的优势和应用。介绍了数据挖掘、数据挖掘的分类、电子商务中Web数据挖掘的步骤等。 相似文献