共查询到19条相似文献,搜索用时 78 毫秒
1.
基于信息过滤后的Web内容挖掘 总被引:4,自引:0,他引:4
Internet的迅速发展,使得worldwideweb已经成为一个巨大的、蕴含着具有潜在价值知识的分布式信息空间,为Web挖掘研究提供了丰富的资源的同时也提出了新的挑战。该文首先论述了Web内容挖掘技术的挖掘原理和所面对的困难,然后介绍了信息过滤技术的规则以及过程。最后提出了基于信息过滤的Web内容挖掘的系统方案,较好地解决了当前Web内容挖掘中准确度不高、冗余性大的缺陷。 相似文献
2.
www上的信息极大丰富,搜索引擎存在精确度低的问题。为准确地从搜索到的网页中提取有用信息,发展一个自动的过滤器已成为当务之急。本文提出的基于自然语言处理的网页过滤方法,从语法、语义和语境三个方面上分析网页的自然语言。实验表明,该方法在一定程度上提高了搜索引擎的精确度。 相似文献
3.
4.
本文主要研究针对中文的Web文本内容过滤。首先,从正负训练样本中分别提取文本特征并计算初始权值,形成两个权重矩阵。然后,利用Boost正则表达式对HTML文件进行分层处理(分成三层),然后提取主题词(仅提取名词等6类重点词)。在初始权值的基础上,考虑主题词所在的层次,不同的层次采用不同的权值,另外,还考虑主题词的长度和同一句中主题词之间的关联,继而计算出新的权值。然后对主题词的权值进行加权,并通过比较进行过滤。实验结果表明,过滤的查全率和查准率均得到有效提高。 相似文献
5.
对Web页进行必要的、有效的内容过滤对于营造健康、安全的网络环境具有重要的意义。重现用户成功访问过的Web页内容,可以对网络访问进行事后监督,为过滤机制的完善提供相应数据。文中分析了Web页的访问流程,基于HTTP代理服务器,在应用层实现了对Web页的关键字过滤和基于语义的内容过滤,并通过将客户机成功访问过的Web页存储在代理服务器硬盘上,实现了内容重现。试验表明,语义过滤能较好地甄别文本的不同观点,准确度较单纯关键字过滤有明显提高。 相似文献
6.
对Web页进行必要的、有效的内容过滤对于营造健康、安全的网络环境具有重要的意义。重现用户成功访问过的Web页内容,可以对网络访问进行事后监督,为过滤机制的完善提供相应数据。文中分析了Web页的访问流程,基于HTTP代理服务器,在应用层实现了对Web页的关键字过滤和基于语义的内容过滤,并通过将客户机成功访问过的Web页存储在代理服务器硬盘上,实现了内容重现。试验表明,语义过滤能较好地甄别文本的不同观点,准确度较单纯关键字过滤有明显提高。 相似文献
7.
基于向量空间模型的实时内容过滤 总被引:2,自引:0,他引:2
内容过滤是网络安全领域的一个新课题,目前对内容过滤技术的研究集中于对关键词的检查和分析,过滤精度较低。该文建立了一个基于向量空间模型的内容过滤模型,它提高了过滤精度,并且能在过滤精度与实时性之间较好地达成平衡。 相似文献
8.
基于模糊近似度的Web文本过滤模型 总被引:1,自引:0,他引:1
从1991年诞生以来,WWW(World Wide Web)得到了迅猛的发展,它已经成为拥有约3亿用户、400万站点的巨大分布式信息空间、它包含了技术资料、商业信息、新闻报道、娱乐信息等多种类别和形式的信息,资源分布很分散,且没有统一的管理和结构。如何快速、准确地从浩瀚的信息资源中提取用户所需要的信息已经成为一个新的研究课题。WWW上最多的就是文本信息,因此Web信息处理的核心就是如何处理这些Web文档。数据挖掘和知识发现(Data Mining and Knowl-edge Discovery,DMKD)可以帮助人们从大量原始数据中挖掘出隐含的、有用的尚未发现的信息和知识,有效地解决信息丰富知识贫乏问题。因此,基于Web文本信息的挖掘作为数据挖掘的一个新主题,引起了人们的极大兴趣。Web文本信息的挖掘就是在大量训练样本的基础上,得到文本数据间的内在特征,并以此为依据在网络资源中进行有目的的信息提取。在本文中,我们首先介绍了Web文本信息的向量空间表示模型(VSM),并在此模型的基础上提出了一 相似文献
9.
凭借ISA Server的应用层过滤功能,你可以根据URL、响应字符串、特征或文件类型等多种手段把恶意内容拒之门外。[编者按] 相似文献
10.
11.
该文提出了“基于互联网自然标注资源的自然语言处理”的学术思想,并从自然标注资源的定义和基本类型、基于自然标注资源的计算、方法论层面上的初步思考等三个角度对这一学术思想进行了初步的阐发。最后指出了其中的一个基础问题 如果我们把全部自然标注资源所能提供的全部信息或知识都以一种系统的方式用到了极致,并且把它们最大限度地有机集成起来,机器能否如愿以偿地获得对自然语言一定深度的理解呢? 相似文献
12.
基于WordNet和自然语言处理技术的半自动领域本体构建 总被引:3,自引:0,他引:3
现有的大多数本体都是通过手工构建的,然而,本体的构建是一项非常费时费力的过程,近年来有关如何半自动地构建领域本体的研究越来越多。本文提出了一种基于WordNet和自然语言处理技术的领域本体半自动构建方法,该方法能够大大提高本体的构建效率,并且一定程度上能够保证结果本体的质量。实验表明,本文的方法在一定程度上令本体的生成过程实现自动化。 相似文献
13.
近年来,随着深度学习的快速发展,面向自然语言处理领域的预训练技术获得了长足的进步。早期的自然语言处理领域长期使用Word2Vec等词向量方法对文本进行编码,这些词向量方法也可看作静态的预训练技术。然而,这种上下文无关的文本表示给其后的自然语言处理任务带来的提升非常有限,并且无法解决一词多义问题。ELMo提出了一种上下文相关的文本表示方法,可有效处理多义词问题。其后,GPT和BERT等预训练语言模型相继被提出,其中BERT模型在多个典型下游任务上有了显著的效果提升,极大地推动了自然语言处理领域的技术发展,自此便进入了动态预训练技术的时代。此后,基于BERT的改进模型、XLNet等大量预训练语言模型不断涌现,预训练技术已成为自然语言处理领域不可或缺的主流技术。文中首先概述预训练技术及其发展历史,并详细介绍自然语言处理领域的经典预训练技术,包括早期的静态预训练技术和经典的动态预训练技术;然后简要梳理一系列新式的有启发意义的预训练技术,包括基于BERT的改进模型和XLNet;在此基础上,分析目前预训练技术研究所面临的问题;最后对预训练技术的未来发展趋势进行展望。 相似文献
14.
15.
基于语料库和面向统计学的自然语言处理技术 总被引:15,自引:1,他引:14
1引言 语料库语言学(Corpus Linguistics)是八十年代才崭露头角的一门新的计算语言学分支学科.它研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法语义分,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分 相似文献
16.
研究人的声纹的准确识别问题.声音特性没有一个统一的、不可变的标准,人的声音容易受到外界的干扰,声音的声纹美尔频率倒谱系数特征各项属性很容易发生变化.现有算法多半以声纹美尔频率倒谱系数为基础,识别效果容易受环境噪声、语音变异等因素的影响,造成声纹的干扰性变化,造成识别的精度不高.为此提出了一种基于语义特征和美尔频率倒谱系数特征相结合的声纹识别算法.利用MFCC准确提取语音中的频率特征,转化成自然语言环境下的语义特征,由于语义特征不受客观因素影响,减少了噪声信号对语音信号的影响,实现对语音特征的准确识别.实验表明,利用改进算法实现了差异化车辆图像的正确识别,提高了识别的准确度. 相似文献
17.
面向自然语言处理的深度学习研究 总被引:11,自引:0,他引:11
近年来,深度学习在图像和语音处理领域已经取得显著进展,但是在同属人类认知范畴的自然语言处理任务中,研究还未取得重大突破.本文首先从深度学习的应用动机、首要任务及基本框架等角度介绍了深度学习的基本概念;其次,围绕数据表示和学习模型两方面,重点分析讨论了当前面向自然语言处理的深度学习研究进展及其应用策略;并进一步介绍了已有的深度学习平台和工具;最后,对深度学习在自然语言处理领域的发展趋势和有待深入研究的难点进行了展望. 相似文献
18.
随着官方发布的漏洞数量呈现指数的增长趋势,针对漏洞检测技术的研究应运而生.漏洞种类的多样性以及检测方法的单一性导致漏洞检测结果呈现一定的局限性.当前漏洞检测技术主要集中在静态检测和动态检测2方面.其中静态检测分析又分为文档分析法、交叉验证法以及程序分析方法等3类.随着自然语言处理技术的兴起和专家知识的不断扩展,研究人员探索了在多个数据源上利用自然语言处理技术辅助进行漏洞检测研究的可行性.根据信息类型的不同,分别从官方文档、代码、代码注释以及漏洞相关信息4部分内容出发,对基于自然语言处理的漏洞检测相关研究成果进行调研.首先,通过对近10年来基于自然语言处理技术的漏洞检测相关文献进行梳理,对相关成果进行分类并提取技术细节;接着,对不同数据源下的研究成果进行横向对比,总结当前基于自然语言处理技术的漏洞检测成果的优缺点;最后,通过交叉对比并深入分析,总结当前基于自然语言处理的漏洞检测方法中存在的8类问题,从数据、技术以及效果3方面进行解决方案的讨论,同时提出了未来研究方向. 相似文献
19.
一种基于自然语言信息隐藏的容量提高算法 总被引:1,自引:0,他引:1
给出了一个基于自然语言处理的文本信息隐藏的一般化模型,然后基于该模型讨论了增加信息隐藏容量的方法。接着给出了一个可以有效地增加信息隐藏容量的算法。从理论和实验上都表明,该算法可以有效地提高信息隐藏容量约25%以上。 相似文献