共查询到20条相似文献,搜索用时 296 毫秒
1.
2.
针对目前网络上不良信息变换不同方式逃脱过滤以及中文分词器分词后存在的问题,提出了基于文本分类技术的信息过滤方法,通过在原有的文本自动分类系统中添加三个过滤模块,以过滤掉无用信息、单个独立字、敏感信息等不良内容,从而保障分类安全高效。 相似文献
3.
4.
针对目前互联网垃圾邮件日益泛滥的情况,对目前常用的几种抗击垃圾邮件方法进行了介绍,同时提出一种混合型的垃圾邮件过滤系统,对其进行了详细地阐述。该方法结合贝叶斯理论和基于内容的邮件过滤思想,给出了邮件过滤系统的体系结构,并对其算法进行了分析。 相似文献
5.
6.
7.
8.
本文介绍了国内外图书文献检索系统的发展及其在我国的现状和所存在的问题,对汉语自动分词问题进行了阐述,并提出了一种综合的分词方法。 相似文献
9.
10.
11.
新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统。 相似文献
12.
内容过滤技术研究进展 总被引:1,自引:1,他引:0
内容过滤是保证内容安全的重要手段,近年来已得到了广泛的关注和快速的发展。从内容过滤的方法、过滤的内容、性能评估指标等方面对当前内容过滤进行了综述评论。基于智能内容分析的过滤方法是目前内容过滤方法的发展趋势,多媒体内容过滤技术还有待进一步发展,文中认为网络内容欺骗攻击、语义特征提取、动态更新关键词词库以及视频、音频流的内容过滤等问题是下一步内容过滤研究的关键问题。 相似文献
13.
14.
15.
汉语属于汉藏语系,和英语等语言不同的是:它不是以一个个单词的形式出现,词与词之间没有空格等明显的分割标记。中文分词是现代中文信息处理的基础,是汉语自然语言理解与处理、机器翻译、智能检索、电子词典等信息处理的前提。中文分词系统的好坏将直接影响以中文分词系统为基础的系统的性能。因此对中文分词系统的评测就是一件十分有意义的事。 相似文献
16.
讨论了中文信息的智能过滤问题,综合考虑了系统的准确性和智能性,将中文分词技术和贝叶斯推理相结合,并针对目前不良信息的特点,改进了中文分词算法。实验证明此系统对不良信息的智能识别具有很高的准确性。 相似文献
17.
源代码漏洞检测是保证软件系统安全的重要手段。近年来,多种深度学习模型应用于源代码漏洞检测,极大提高了漏洞检测的效率,但还存在自定义标识符导致库外词过多、嵌入词向量的语义不够准确、神经网络模型缺乏可解释性等问题。基于此,该文提出了一种基于卷积神经网络(CNN)和全局平均池化(GAP)可解释性模型的源代码漏洞检测方法。首先在源代码预处理中对部分自定义标识符进行归一化,并采用One-hot编码进行词嵌入以缓解库外词过多的问题;然后构建CNN-GAP神经网络模型,识别出包含CWE-119缓冲区溢出类型漏洞的函数;最后通过类激活映射(CAM)可解释方法对结果进行可视化输出,标识出可能与漏洞相关的代码。通过与Russell等人提出的模型以及Li等人提出的VulDeePecker模型进行对比分析,表明CNN-GAP模型能达到相当甚至更好的性能,且具有一定的可解释性,便于研究人员对漏洞进行更深入的分析。 相似文献
18.
一种全切分与统计结合的分词系统 总被引:1,自引:1,他引:0
歧义消解是中文分词的主要问题之一.提出了一种全切分与统计结合的分词算法,构造出基于统计词典的有向无环词图,利用动态规划算法得出最佳的分词路径.实验证明,系统有效地提高了歧义切分的准确性及分词速度. 相似文献
19.
20.
论文研究和探讨了安全网关内容过滤硬件加速技术。通过采用内容过滤硬件加速系统,解决了高速网络边界网关的内容过滤性能瓶颈,基于Linux的Netfilter框架,实现了内容过滤原型系统,并对实现的硬件加速原型系统进行了对比实验,测试结果验证了该方法的有效性。 相似文献