首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
随着互联网的快速发展与搜索引擎的广泛使用,网页数据已经成为各种应用与研究的重要数据源之一。然而由于网页的特殊性,它所包含的信息并非都是各种应用所必需,例如:广告,导航条等。它们的存在会对各种应用产生不利影响。此外,网页检索结果中经常出现内容相同的冗余页面的问题。所以在网页数据的应用过程中网页净化、网页去重是一个基础问题,也是目前研究的一个热点问题。所以很有必要对网页净化和网页去重领域进行总结,以便更好地深入研究。从网页净化、去重的必要性出发,对它们进行定义和分类,概述多种网页净化、去重的方法和框架,并对其进行总结。  相似文献   

2.
三角网格曲面去噪是计算机图形学领域一个经典问题,近年来不断涌现出各种新的去噪方法.该文主要关注保持特征的三角网格曲面去噪技术,总结了三角网格的几何表示以及一系列特征结构,依据算法类型将现有去噪技术分为优化法、滤波法、数据驱动法3类.针对不同的去噪模型和所利用的网格属性,对各分类下的去噪方法进行分析、讨论;简述了4类常用评估准则,从尖锐特征保持能力、体积保持、异常值去除能力、有无顶点漂移现象、有无面片翻转现象5个方面展示不同算法的优缺点;并根据这些算法存在的共性问题提出三角网格曲面去噪技术发展方向.  相似文献   

3.
基于小波变换的语音增强算法综述   总被引:3,自引:0,他引:3  
基于小波变换的话音增强方法是一种新颖的去噪方法,值得大家去研究利用.本文根据大量的文献资料,从小波分解、模极大值、小波系数相关性、阈值去噪及混合去噪法等几个方面,详细地介绍了目前国内外基于小波变换的语音增强方法的研究现状,分析了各种改进方法的优缺点,并论述了小波去噪的发展趋势,对提高语音信号处理的性能具有较大的应用价值.  相似文献   

4.
由于Web上网页的急剧增加,信息搜索与挖掘越来越引起人们的重视。然而网页中除了主题信息外,还有噪声信息,从而网页净化技术受到越来越多的研究人员的关注,并提出了各种算法。借鉴人工免疫系统在计算机网络入侵检测中的应用,提出了一种基于AIS的网页去噪算法。同时对网页中的数据进行了异常识别的非线性研究。  相似文献   

5.
数据去噪声是信号和图像处理领域的一个经典问题,广泛应用于各类工程实践中。由于噪声源的多样性,去噪一直是富有挑战性且十分活跃的研究课题,发展了多种经典去噪方法。近年来,随着压缩感知理论的发展,基于稀疏表示及正则化约束反问题求解方法成为图像去噪领域的重要发展方向和技术途径。本文首先回顾和总结图像噪声的来源和类型,然后针对不同类型的图像噪声,重点围绕基于稀疏表示及正则化约束的图像去噪技术进行全面综述,分析和描述了几种主要去噪方法的原理及优缺点。最后,对去噪算法的性能评价指标进行总结。  相似文献   

6.
在网页文本信息自动采集的实际应用中,网页检索采集到的资源存在着大量与网页主题内容无关的"噪音"信息,本文主要内容是研究基于DOM树的网页去噪技术,通过对网页结构的转化,将网页转化成DOM树,在此基础上过滤掉网页噪音信息,提取网页文本的正文内容。  相似文献   

7.
小波阈值图像去噪研究与应用   总被引:2,自引:8,他引:2  
目前,对于图像去噪的理论和应用都已基本完善,但是对于保留图像边缘的图像去噪的研究仍然有很多学者专家在研究。小波域阈值图像去噪是能够保留图像边缘及其他特征的去噪方法之一。本文系统地研究了最常用的几种小波阈值去噪方法及阈值函数,然后在MATLAB环境下对几种小波阈值方法进行了试验,最后对各种阈值去噪方法的去噪效果进行了比较。  相似文献   

8.
小波图象去噪综述   总被引:104,自引:6,他引:104       下载免费PDF全文
小波图象去噪已经成为目前图象去噪的主要方法之一。在对目前小波去噪文献进行理解和综合的基础上,首先通过对小波去噪问题的描述,揭示了小波去噪的数学背景和滤波特性;接着分别阐述了目前常用的3类小波去噪方法,并从小波去噪中常用的小波系数模型、各种小波变换的使用、小波去噪和图象压缩之间的联系,不同噪声场合下的小波去噪等几个方面,对小波图象去噪进行了综述,最后,基于对小波去噪问题的理解,提出了对小波去噪方法的一些展望。  相似文献   

9.
针对网络舆情检测的关键技术及应用做了介绍.按照舆情监控的处理流程对网络爬虫、网页消重、网页去噪、文本分类、文本聚类等技术做了细致的介绍.对各种技术分类介绍了一些常用的算法.接着对舆情挖掘的应用方向话题跟踪与检测和情感倾向分析做了介绍.最后分析了舆情监测在理论研究和应用上的发展趋势.  相似文献   

10.
在传感器网络研究领域中,去除感知数据含有的噪声是个重要的研究课题。现存的去噪算法没有考虑节点密度不均匀及信息拥塞的情况,从而过多地消耗了能量。考虑这两个因素,使用时间维加权的方法,提出了一个基于节点密度的网内自适应去噪算法-DHA(density-based hybrid approach)。DHA能够根据节点密度来进行算法决策,并且在时间维进行加权,能够对数据变化作出快速反应并且提高数据精度。实验结果表明,DHA方法能够在保证良好的去噪效果、快速响应时间的前提下,比目前最好的去噪算法WMA(weighted moving average-based)更节省能量。  相似文献   

11.
Web挖掘研究   总被引:285,自引:4,他引:285  
因特网目前是一个巨大,分布广泛,全球性的信息服务中心,它涉及新闻,广告,消费信息,金融管理,教育,政府,电子商务和许多其它信息服务,Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源,Web挖掘就是从Web活动中抽取感兴趣的潜在有用模式和隐藏的信息,对Web挖掘最新技术及发展方向做了全面分析,包括Web结构挖掘,多层次Web数据仓库方法以及W eb,Log挖掘等。  相似文献   

12.
Web模糊聚类方法及其应用   总被引:5,自引:0,他引:5  
本文提出了Web模糊聚类的概念,给出了Web模糊聚美的过程模型WFCM并进行了详细阐述,沦述了Web模糊聚类在Web访问信息挖掘中,尤其是在Web用户聚类和Web页面聚类方面的应用.最后用实例证明了在Web页面聚类中使用Web模糊聚类的可行性。  相似文献   

13.
殷彬  杨会志 《微机发展》2011,(9):111-113,117
在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法。将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取。实验结果表明,本算法的适用性强、正确率较高。  相似文献   

14.
有很多不同的分块算法都可以对web网页进行分块.研究分块的1/1的是为了相关领域进一步研究的需要。例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存档等。首先给出Web页面分块问题定义和分类,并对几种典型的分块算法进行原理剖析,为进一步研究web页面分块问题提供一些有益的参考。  相似文献   

15.
双语平行网页挖掘系统的设计与实现   总被引:1,自引:0,他引:1       下载免费PDF全文
陈伟  黄蕾  刘峰  赵志宏 《计算机工程》2009,35(14):267-269
针对双语语料是开发统计机器翻译系统的重要资源,提出一种从网络中自动挖掘双语平行网页的方法。与传统从指定网站中挖掘平行网页的方法不同,该方法从整个互联网中自动挖掘平行网页,对新的语言对和内容领域有很强的适应能力,实现双语平行网页挖掘的系统。实验结果显示,该系统可以为统计机器翻译系统提供大量高质量的平行网页。  相似文献   

16.
熊忠阳  蔺显强  张玉芳  牙漫 《计算机工程》2013,(12):200-203,210
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。  相似文献   

17.
Web使用挖掘是近年来Web数据挖掘中的研究热点。针对传统遗传算法在提取关联规则问题时常采用固定染色体交叉概率和染色体变异概率,容易出现早熟、收敛速度较慢的问题,提出了改进的遗传算法,并在关联规则的提取中增加了用户页面兴趣度这一阈值,成功地运用到某商业网站服务器日志挖掘。实验证明,这种改进的遗传算法能够有效避免早熟收敛现象,是一种有效的方法。  相似文献   

18.
基于多示例学习技术的Web目录页面链接推荐   总被引:2,自引:0,他引:2  
在Web目录页面中,向用户推荐其感兴趣的链接有助于用户高效地访问网络资源.然而,用户往往不愿花费很多时间来标记训练样本,其提供的数据可能只能说明某个目录网页是否包含其感兴趣的内容,而不能明确标示出其感兴趣的具体链接.由于训练数据中缺乏对链接的标记,但预测时却需要找出用户感兴趣的链接,这就使得Web目录页面链接推荐问题相当困难.CkNN-ROI算法被提出用于解决该问题.实验表明,CkNN-ROI算法在解决这一困难的链接推荐问题上比其他一些算法更为有效.  相似文献   

19.
在信息检索领域,数据抽取技术已成为研究重点之一。提出一种基于DOM树的Web数据对象自动抽取方法。该方法首先将网页解析为DOM树,然后将结构相似的子树抽取出来作为候选数据对象,接着再计算候选数据对象的内容相似度,内容相似度低的则为数据对象。实验证明该方法能够有效地将各种Web数据对象从网页中抽取出来,召回率和准确率都比较高,且该方法独立于领域,独立于Web数据对象的表示形式,较好地解决了Web数据对象的抽取问题。  相似文献   

20.
电子商务是随着网络的发展产生的一种新兴事物,电子商务的迅速崛起,使得不管是商家还是客户对基于Web数据检索、挖掘等需求不断提高。目前静态结构的Web页面显然已经被众多个性化的动态结构站点所代替。网站如何根据Web服务器日志文件,客户交易数据中挖掘出有意义的用户访问模式和潜在的客户群,为企业提供全方位信息服务和开展有针对性的电子商务活动。针对电子商务方面论述了数据挖掘的优势和应用。介绍了数据挖掘、数据挖掘的分类、电子商务中Web数据挖掘的步骤等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号