首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 406 毫秒
1.
基于关联规则的安全特色关键词提取研究   总被引:2,自引:0,他引:2  
互联网中的不法分子为了逃避安全过滤,将不良信息中的文本进行变形将其在网络中散布。为了识别和过滤这些不良文本,首先,根据词同现和字符编码规则对文本进行初始识别,识别出没有词义但频繁出现的有害词串;然后针对这些有害词串中各字符相邻、有序、频繁出现的特点,提出一种关联规则新算法自学习提取特色主题词。实验表明,该方法可以改善传统方法无法识别变形主题词的现状,对关键字过滤和主题过滤提供补充,提高基于内容的安全过滤的效率。  相似文献   

2.
不法分子为了逃避过滤,将不良信息中的敏感关键词进行变形。为了识别这些变形的关键词,提出了一种柔性过滤算法。在此基础上,利用浏览器帮助对象(BHO),构建了一个中文网页内容柔性过滤器,用于实时过滤由变形关键词生成的不良网页。该过滤器改善了传统过滤器不能过滤变形关键词的现状,是对传统的基于关键词过滤方法的补充。  相似文献   

3.
设计并实现了一种高效率、高性能的网页文本过滤系统,该系统采用分层过滤策略,包括实时过滤和事后分析。实时过滤模块是基于Linux下的IP Queue机制实现的,采用高效的过滤策略,在保证过滤实时性的同时也保证了过滤的准确性;事后分析模块研究过滤系统经过协议还原后备份的网页文本,通过网页预处理、非法关键词抽取、特征选择等步骤,实现了基于二元模型的文本过滤方法,该方法在一定大小的词语距离窗口内,采用包含非法关键词的二元词串作为特征,解决了使用二元词串带来数据稀疏的问题,同时保留了二元词串的强类别分辨能力的特征。实验表明,文章实现的过滤系统有较高的效率和准确率,用于事后分析的基于二元模型的文本过滤方法达到了较高的性能,其准确率、召唤率和F1的值分别为:96.98%,85.75%和91.02%。  相似文献   

4.
提出一种基于二元模型的分层过滤策略的中文文本过滤方法.首先,在非法文本集中使用文档频率和卡方统计相结合的方法抽取非法关键词集合,并根据制定的策略,筛选出非法文本和一些包含非法关键词的合法文本;其次,在筛选出的文本中,选取包含非法关键词的二元词串作为特征集合,以卡方统计方法对特征进行评估,选取预定数目作为结果的特征子集,使用支持向量机分类器过滤非法文本.实验表明提出的过滤方法的准确率、召唤率和F1的值分别为:95.65%,84.87%和89.93%.  相似文献   

5.
基于柔性匹配的中文文本特征提取方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对含有变形关键词的不良信息过滤问题,提出一种基于柔性匹配的中文文本特征信息提取方法。该方法采用柔性匹配技术识别和提取变形关键词,改进向量空间模型中特征项权重的计算方法,对具有变形形式的关键词赋予较高权重,从而提高特征信息的提取效率。实验结果表明,该方法可在保证过滤准确率的前提下,获得较高的召回率。  相似文献   

6.
针对目前对各类文献资料进行数字化识别时,公式无法直接转化为可编辑文本形式的问题,提出一种基于扫描圈的字符识别方法。首先对公式中的各个字符进行识别,然后再确定这些字符之间的关系,以达到公式识别的目的。扫描圈识别是一种以笔划结构分析为基础的字符识别方法,通过搜索将字符中的所有连笔符号转化为四进制的扫描圈,然后从扫描圈中提取字符的不变特征量。以这些特征量为模板,用模式匹配法对字符进行识别,并采用最短距离比较的方法进行匹配,以获得较为精确的识别结果。  相似文献   

7.
吴晓刚  唐屹 《计算机安全》2006,14(11):18-19,27
信息的特征码与关键词是信息搜索及内容过滤的核心。特征码的变异或隐蔽来自病毒与杀毒对抗机制,非法信息文件为逃避以内容过滤为主的检测,也可能采用类似方法对特征关键词进行变异处理。该文主要探讨了如何在特征关键词变异的情形下,检测并发现对应的特征文本关键词的一种方法,并基于字符特殊标点集的统计特性建立了一个简单有效的模型及检测变异特征的算法。在此基础上,用VC6.0语言实现了异常文本的检测程序SDG。在对目标文本的测试中,以上算法的识别率可以达到预期目标。  相似文献   

8.
自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出了一种基于多路并行的位置关联网络(Multi-Path Parallel Location Association Network, MPLAN)的自然场景文本识别方法.首先,针对不规则文本图像,MPLAN使用文本矫正网络自适应学习图像变换,从而获得线性排列的文本图像.其次,为了捕获字符间的位置信息,MPLAN提出了位置关联模块,利用序列特征的有序性,通过捕获字符位置信息,以提高序列特征与目标字符的对齐准确度.此外,为了增强字符间的语义相关性,MPLAN提出了基于多路传输思想的并行注意力模块,获取全局语义信息,实现序列特征的上下文通信,从而锁定有效字符的位置.在包括规则文本、不规则文本在内的六个数据集上的实验结果表明,MPLAN能够有效利用位置信息与全局语义信息解码字符序列,特别是在识别不规则文本上取得了领先的性能.  相似文献   

9.
敏感信息识别是净化互联网环境的关键,在当今信息爆炸的时代,人们每天都要从互联网中获得大量信息,如何过滤大量信息中的敏感信息对整个社会安定和谐有着重要的意义.现有的方法主要是基于敏感关键词的方法进行过滤,需要不断更新迭代敏感关键词,泛化性弱,本文中使用基于预训练模型的深度学习方法可以学习到互联网新闻文本中更深层的语义信息,进而更有效的识别和过滤敏感信息,泛化性强,但是只使用深度学习方法会一定程度上的损失敏感关键词特征.本文首次将传统的敏感关键词方法与深度学习方法相结合应用于互联网敏感信息识别,提出了一种融合敏感关键词特征的模型Mer-HiBert.实验结果表明,与之前的敏感关键词方法以及深度学习模型相比,模型的性能有进一步提高.  相似文献   

10.
后处理是检测和纠正文字识别后文本中错误的重要步骤,老挝语文字识别结果中存在大量相似字符替换错误及字符断裂、粘连导致的字符插入、删除错误,针对该问题进行分析,该文提出了一种融合字符形状特征的多任务老挝语文字识别后纠错方法.该方法引入基于长短期记忆网络的seq2seq模型架构,将老挝字形特征融入模型以辅助模型对相似字符替换错误的纠正,针对文本中插入、删除错误在编码端联合多尺度卷积网络以不同的卷积核大小提取文本的局部特征;再使用语言模型对解码端预测的文本序列与原始文本进行重排名,得到最佳候选;同时,采用多任务学习的方式,以错误检测辅任务优化模型纠错效果,此外,该文以数据增强的方式扩充数据集.实验结果表明,该方法使老挝文字识别的字符错率低至7.94%.  相似文献   

11.
朱健  卢秉亮  张春宇 《微处理机》2012,33(2):32-34,38
通过对网络信息内容进行分析并对信息进行过滤,能够保证信息的安全性。在关键字过滤和IP过滤基础上,采用双向最大匹配和基于内容分析的K-最邻近文本分类算法相结合进行内容过滤,以达到信息系统过滤信息的质量和速度的效果。以准确率和查全率为标准,对本方案进行测定和评估,评估结果表明,本方案的过滤效果比较理想。  相似文献   

12.
随着信息的迅猛增长,垃圾邮件问题日益严重。如何有效地过滤垃圾邮件成为研究的热点问题。介绍了目前比较常见的几种垃圾邮件过滤技术,分析了垃圾邮件制造者采用的各种新型手段,如简繁体混编、汉字拆分、词间加入特殊字符等,试图绕过基于内容的关键词检查。针对其中几种典型的新型垃圾邮件编写手段,提出改进的中文分词策略,结合基于内容的关键词检查,提出基于特征词扩展的内容检查过滤机制。实验验证改进后的过滤模型可在一定程度上提高对新型垃圾邮件的识别率。最后,对基于特征词扩展思想在网络内容安全和健康过滤上的应用做了展望。  相似文献   

13.
基于Log—Gabor滤波的指纹图像增强   总被引:1,自引:0,他引:1  
自动指纹识别系统的性能在很大程度上依赖于指纹图像的采集效果。指纹图像增强用于改善原始指纹图像的质量,以保证指纹特征提取的准确性,是十分必要的。Gabor滤波是比较有效的指纹图像增强方法,但是仍存在一定的局限性。与传统的Gabor滤波器相比,Log-Gabor滤波器可以在取得最佳空间定位的同时具有更宽广的频带,有利于改善指纹图像的滤波效果。本文提出采用Log-Gahor滤波器来实现指纹图像增强,先利用加窗傅里叶变换来提取指纹图像的局部频谱信息,再在频域进行滤波。在详述了滤波器的设计方法之后,给出具体的图像滤波方案,并与传统方法作了比较。实验结果表明,所提出的算法能有效改善指纹图像的质量和提高指纹识别的可靠性。  相似文献   

14.
为了提高垃圾邮件过滤系统的对邮件过滤的准确性和返回率,论文改进了传统的贝叶斯定理。提出一种改进的垃圾邮件过滤方法,该方法使用基于单词提取特征值和使用特征向量来描述频率。模型降低了垃圾邮件的错误率,总体上提高了系统的过滤性能。与传统贝叶斯公式的假设不同,系统为垃圾邮件样本的每个特征值分配不同的权值,降低了的垃圾邮件判断误差。实验结果表明,论文提出的垃圾邮件过滤方法能够显着提高准确性和返回率,系统性能得到了较大改进。  相似文献   

15.
经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。  相似文献   

16.
基于混合模式的文本过滤模型   总被引:16,自引:1,他引:15  
文本过滤旨在帮助用户处理自己感兴趣的文本,提出了基于混合模式的文本过滤模式,其基本思想是将基于内容的过滤方法和合作过滤方法结合起来,给出了用户评沪的权威性和一致性度是,以便更好地运用用户的评注信息,在此基础上,结合用户的个人兴趣,给出了文硒特征抽取机制、文本推荐机制、文本与信息需求模型的匹配机制,该方法不依赖于具体的领域知识库,大大降低“噪音”影响,并可以适用于多媒体类型文件的过滤和信息服务。  相似文献   

17.
邵忻  徐倩漪 《计算机仿真》2012,29(2):135-138
研究网络中不良文字信息检测问题,提高检测的准确率。针对传统的不良信息检测方法都是针对具体的非法汉字进行对比检测的,没有考虑到汉字中的语义特征,当不良信息由合法汉字组成的时候,基于特征的检测方法由于没有考虑语义的因素,过于依赖不良汉字库,造成不良信息漏检率很高的问题。为解决上述问题,提出一种根据语义关联决策的信息过滤技术,通过计算信息语义与不良信息语义的关联程度,运用语义因素判定非法信息,有效克服传统方法的弊端。实验证明,方法能快速、完整地将高度伪装的不良信息检测出来,保证了信息的安全,取得了不错的效果。  相似文献   

18.
基于内容的文本过滤关键在于建立有效的过滤模板。一种高效的过滤模板可以降低整个文本过滤系统对机器学习机制的要求,提高系统的过滤效率。提出了一种基于概念学习的过滤模板获取方法。该方法结合处理文本特征项的需要改进了概念学习方法中的寻找极大特殊假设算法,并应用新的算法从给定的少量训练文本中提取用户过滤模板。实验结果表明,与直接使用主题描述作为过滤模板的方法相比,较大地提高了过滤精度,可以达到比较令人满意的过滤效果。  相似文献   

19.
针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词 贝叶斯分类算法(Multi Word-Bayes,MWB)。该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视。实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号