首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
Web内容过滤中的数据预处理模块设计   总被引:1,自引:0,他引:1  
Web内容过滤是将模式识别和文本分类的方法应用于通过服务器或个人终端的数据流上,实现不良或无关信息过滤的行为模式。之后介绍了典型的数据预处理技术,指出大量无关或冗余数据以及中文字符集的多样性影响了过滤的效果。提出了改良的数据预处理模块,其中引入了主体文本提取和中文字符集自动识别转换等技术。结合实验和实际系统应用说明了改良模块的作用,并给出了进一步的努力方向。  相似文献   

2.
内容过滤中过滤模板的改进技术研究   总被引:4,自引:1,他引:4  
何静  刘海燕  宫云战 《通信学报》2004,25(3):112-118
网络安全中的内容过滤需要在过滤精度与实时性之间寻求平衡,本文首先建立了内容过滤系统的体系结构,它能够实现内容过滤功能。在此基础上,提出了一种对过滤模板进行改进的新的机器学习方法,利用马尔可夫模型可证明此方法能保证初始过滤模板在学习过程中逐渐收敛于真实模板,从而不断提高过滤精度。  相似文献   

3.
刘淑梅  桑书娟  山岚 《信息技术》2009,33(9):187-189
文本过滤所研究的内容就是如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息,使人们更有效地利用信息资源.  相似文献   

4.
文本过滤所研究的内容就是如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息,使人们更有效地利用信息资源。  相似文献   

5.
内容过滤技术研究进展   总被引:1,自引:1,他引:0  
内容过滤是保证内容安全的重要手段,近年来已得到了广泛的关注和快速的发展。从内容过滤的方法、过滤的内容、性能评估指标等方面对当前内容过滤进行了综述评论。基于智能内容分析的过滤方法是目前内容过滤方法的发展趋势,多媒体内容过滤技术还有待进一步发展,文中认为网络内容欺骗攻击、语义特征提取、动态更新关键词词库以及视频、音频流的内容过滤等问题是下一步内容过滤研究的关键问题。  相似文献   

6.
牛洪波  丁华福 《信息技术》2007,31(12):100-102
针对目前网络上不良信息变换不同方式逃脱过滤以及中文分词器分词后存在的问题,提出了基于文本分类技术的信息过滤方法,通过在原有的文本自动分类系统中添加三个过滤模块,以过滤掉无用信息、单个独立字、敏感信息等不良内容,从而保障分类安全高效。  相似文献   

7.
本文提出一种基于概念图和简单语义分析相结合的文本过滤技术.利用概念图知识表示方法定义文本中概念间的语义倾向关系,把文本过滤问题转换成基于概念图的语义匹配问题.在使用概念图匹配推理中,利用敏感词汇分类和词语的褒贬性,有效简化过滤的匹配处理.经实际应用表明,基于概念图的倾向性文本过滤方法可以有效的识别和过滤倾向性文本信息.  相似文献   

8.
在输入文本流中部分字符串不能被分析器分析的情况下,提出一种可配置的过滤文本流的方法,使输入文本流能够被分析器分析。可通过定义配置文件对处理过程进行约束,删除或修改不能识别的字符串,消除输入文本流中的不可分析内容。向输出文本流中插入分析器支持的动作信息,从而能够控制分析器的运行状态,增强了开发人员控制分析器状态的能力。  相似文献   

9.
针对不良文本的过滤问题,文章提出了一种基于SVM分类器改进的文本过滤方法。该方法将传统的基于词语的分类方法改为基于词语元组的分类,增强了特征项的分辨率,实验表明该方法同传统的过滤方法相比具有较高的准确率和召回率。  相似文献   

10.
论文研究和探讨了安全网关内容过滤硬件加速技术。通过采用内容过滤硬件加速系统,解决了高速网络边界网关的内容过滤性能瓶颈,基于Linux的Netfilter框架,实现了内容过滤原型系统,并对实现的硬件加速原型系统进行了对比实验,测试结果验证了该方法的有效性。  相似文献   

11.
基于Web的文本挖掘研究   总被引:4,自引:6,他引:4  
基于Web的文本挖掘是数据挖掘的重要组成部分,文章重点对文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。  相似文献   

12.
本文以Web挖掘为基础。首先,从定义、功能、过程3方面介绍了Web内容挖掘中的文本挖掘;其次,重点探讨了Web文本挖掘的两种重要功能——分类及其它们常用的算法,并分别对算法做了比较;最后,得出结论并进行了展望。  相似文献   

13.
阮冰 《现代电子技术》2010,33(4):145-147,151
随着信息技术的迅速发展,网络已经逐步成为人们生活当中不可或缺的信息传播工具。由于网络资源的大量使用和信息的大量传输,导致信息过载及安全等问题日益突出。为了解决信息过滤的过滤精度和效率瓶颈等问题,这里详细地对文本信息过滤的主要过程、文本表示方法、特征向量获取、相似度计算等技术进行研究,提出一个基于特征向量的文本信息过滤算法。该过滤算法有效地平衡了计算负载,具有较高的信息过滤性能。  相似文献   

14.
基于类别分布差异和VPRS特征选择的文本分类方法   总被引:3,自引:0,他引:3  
权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。  相似文献   

15.
互联网的迅猛发展,越来越迫切地需要全面准确对网上信息进行分类及统计,Web挖掘技术的兴起,尤其是该技术中的文本挖掘,使这种统计成为可能。本文研究了互联网信息统计的现状,介绍了Web挖掘技术并分析了Web文本挖掘的关键技术。继而结合文本挖掘技术设计了网站分类系统的模型,同时对其开发步骤进行了说明。最后展望了此技术方案在相关领域的应用前景。  相似文献   

16.
李新 《电子工程师》2009,35(6):15-20,23
信息安全是人们关注的焦点,从传统的基于行为的安全向基于内容本身的安全不断发展,信息安全的外延在不断扩大。Internet提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康安全网络环境的重要环节。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义,过滤效果难以满足智能化的要求。文中结合计算机语言学知识,提出并实现了一种语义分析的过滤方法,对于那些冗长文本中因为分散存在的关键字而造成的假匹配,通过语义分析,可以很好地甄别处理,从而提高系统的召回率。  相似文献   

17.
模式匹配算法是数据过滤系统的重要组成部分,其效率直接影响到海量数据过滤系统的性能.为了应对当前不断增加的网络数据量对网络安全造成的威胁,提出了一种新的模式匹配算法——改进的AC-BM算法,并将其应用到海量数据过滤系统中.改进后的算法明显减少了匹配时间,提高了海量数据过滤系统执行效率.  相似文献   

18.
Web挖掘的敏感信息过滤模型   总被引:1,自引:0,他引:1  
论文分析了敏感信息过滤的重要性和常见的信息过滤手段,提出了一种基于Web挖掘的敏感信息过滤模型。该模型的主要思想是:采用Web挖掘技术对页面文字与图像内容以及用户访问行为特征进行分析,采用在线与离线分析相结合、并行处理等技术建立综合过滤体系,为建设文明、健康的网络环境提供技术保障。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号