首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
李昀姗  王嘉梅  郑晟 《电子科技》2011,24(5):97-101
彝文的使用主要在中国西南部四川、贵州、云南等地.采用字体结构易位、增添笔画等方法来多产字.因此彝文字具有明显的字形结构特征,文中正是采用了彝文字特殊的字形结构,为云南规范彝文设计了形码编码方案,利用Windows IME API实现了云南规范彝文输入法.同时设计和制作了云南规范彝文字库,为输出彝文字的质量提供了保证,且...  相似文献   

2.
牛洪波  丁华福 《信息技术》2007,31(12):100-102
针对目前网络上不良信息变换不同方式逃脱过滤以及中文分词器分词后存在的问题,提出了基于文本分类技术的信息过滤方法,通过在原有的文本自动分类系统中添加三个过滤模块,以过滤掉无用信息、单个独立字、敏感信息等不良内容,从而保障分类安全高效。  相似文献   

3.
面向互联网视频的话题分析技术研究   总被引:1,自引:0,他引:1  
本文提出了一种互联网视频话题分析方法,在利用自动网页抓取技术获取的视频信息数据集合基础上,首先利用中文分词技术对视频文本信息进行自动分词,并采用基于不同时间周期的关键词词频过滤算法进行关键词选择,然后采用基于频繁项挖掘的话题聚类方法对热点视频话题进行检测,最后采用贝叶斯分类方法对视频话题进行分类。  相似文献   

4.
针对目前互联网垃圾邮件日益泛滥的情况,对目前常用的几种抗击垃圾邮件方法进行了介绍,同时提出一种混合型的垃圾邮件过滤系统,对其进行了详细地阐述。该方法结合贝叶斯理论和基于内容的邮件过滤思想,给出了邮件过滤系统的体系结构,并对其算法进行了分析。  相似文献   

5.
《现代电子技术》2019,(4):166-170
当前的分词工具分词后会出现很多单字碎片,分词之后意义与原意相差甚远。同时因为新词的构词规则具有自由度大的特点,当前分词方法不能有效识别网络中的新词。在ICTCLAS2016分词系统的基础上,结合新词结构制定规则构建碎片库,利用Bi-gram和Tri-gram模式提取碎片库中的候选字串,再采用左右邻接熵进行扩展及过滤,最后提出基于规则和N-Gram算法的新词识别方法。结果表明使用该方法的分词效果准确率、召回率和F值都有所提高。实验结果表明,该新词识别方法能有效构造候选新词集合,提高中文分词效果。  相似文献   

6.
本文提出了一种适用于对互联网发送的垃圾短信进行监控和过滤的解决方案,该方案根据短信日发送频度、短信内容、短信长度等特征,采用模糊匹配和频度监控相结合的方法进行短信监控和过滤.系统中创新性地提出了内容预变换、关键字加权控制频度等方法,相比传统方法而言,本系统在过滤准确度和误判率两方面的指标均获得大幅度提升.  相似文献   

7.
汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率。  相似文献   

8.
本文介绍了国内外图书文献检索系统的发展及其在我国的现状和所存在的问题,对汉语自动分词问题进行了阐述,并提出了一种综合的分词方法。  相似文献   

9.
《信息技术》2016,(11):152-156
汉语词典机制很大程度上影响中文分词的效率。为了提高现有基于词典的分词机制的查询效率,在双哈希词典机制和整词二分法相结合的基础上提出了一种有效的中文分词词典机制——双哈希编码分词词典机制。首字采用散列表保存,剩余字符逐个拼接计算其编码后放入余词散列表中,并加入状态值来减少匹配次数。实验结果表明该分词机制节省了内存空间和提高了匹配速度,方便词典更新与维护。  相似文献   

10.
《现代电子技术》2019,(15):72-78
为了有效解决社交网络中对敏感词进行变形处理而逃避被检测和过滤的问题,首先识别敏感词及敏感词的变形词,并采用敏感词指纹汇聚方法将敏感词的变形词与原词进行关联。在此基础上,采用语义指纹技术检测重复发布的敏感内容。其次,建立基于多任务学习的卷积神经网络模型(MTL-CNN),综合敏感性和情感倾向两个方面对发布文本进行检测。对比实验结果表明,提出的敏感内容检测方法具有较高的处理速率和检测准确率。  相似文献   

11.
黄轩  李熔烽 《现代电子技术》2013,(2):144-146,149
新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统。  相似文献   

12.
内容过滤技术研究进展   总被引:1,自引:1,他引:0  
内容过滤是保证内容安全的重要手段,近年来已得到了广泛的关注和快速的发展。从内容过滤的方法、过滤的内容、性能评估指标等方面对当前内容过滤进行了综述评论。基于智能内容分析的过滤方法是目前内容过滤方法的发展趋势,多媒体内容过滤技术还有待进一步发展,文中认为网络内容欺骗攻击、语义特征提取、动态更新关键词词库以及视频、音频流的内容过滤等问题是下一步内容过滤研究的关键问题。  相似文献   

13.
本文介绍了互联网电视目前所存在的安全隐患,从系统、应用软件、体系、内容等方面进行了具体分析,并就如何保证互联电视的安全问题,提出了相应的看法和建议。  相似文献   

14.
本文介绍了江苏有线“云媒体电视”电视互联网系统建设,该系统是构建在广电网络基础之上,融合了互联网的一项新媒体形态。系统通过实时模板转化机制,将自动采集过滤后的互联网站点内容以符合电视屏用户体验的方式进行呈现,用户通过数字电视互动机顶盒即可在电视上体验上网浏览站点服务。该系统为用户提供了安全、可靠、绿色的电视屏上网体验,是广电进行三网融合的具体实践。  相似文献   

15.
汉语属于汉藏语系,和英语等语言不同的是:它不是以一个个单词的形式出现,词与词之间没有空格等明显的分割标记。中文分词是现代中文信息处理的基础,是汉语自然语言理解与处理、机器翻译、智能检索、电子词典等信息处理的前提。中文分词系统的好坏将直接影响以中文分词系统为基础的系统的性能。因此对中文分词系统的评测就是一件十分有意义的事。  相似文献   

16.
张家勇  刘建辉 《信息技术》2006,30(12):175-178
讨论了中文信息的智能过滤问题,综合考虑了系统的准确性和智能性,将中文分词技术和贝叶斯推理相结合,并针对目前不良信息的特点,改进了中文分词算法。实验证明此系统对不良信息的智能识别具有很高的准确性。  相似文献   

17.
源代码漏洞检测是保证软件系统安全的重要手段。近年来,多种深度学习模型应用于源代码漏洞检测,极大提高了漏洞检测的效率,但还存在自定义标识符导致库外词过多、嵌入词向量的语义不够准确、神经网络模型缺乏可解释性等问题。基于此,该文提出了一种基于卷积神经网络(CNN)和全局平均池化(GAP)可解释性模型的源代码漏洞检测方法。首先在源代码预处理中对部分自定义标识符进行归一化,并采用One-hot编码进行词嵌入以缓解库外词过多的问题;然后构建CNN-GAP神经网络模型,识别出包含CWE-119缓冲区溢出类型漏洞的函数;最后通过类激活映射(CAM)可解释方法对结果进行可视化输出,标识出可能与漏洞相关的代码。通过与Russell等人提出的模型以及Li等人提出的VulDeePecker模型进行对比分析,表明CNN-GAP模型能达到相当甚至更好的性能,且具有一定的可解释性,便于研究人员对漏洞进行更深入的分析。  相似文献   

18.
一种全切分与统计结合的分词系统   总被引:1,自引:1,他引:0  
歧义消解是中文分词的主要问题之一.提出了一种全切分与统计结合的分词算法,构造出基于统计词典的有向无环词图,利用动态规划算法得出最佳的分词路径.实验证明,系统有效地提高了歧义切分的准确性及分词速度.  相似文献   

19.
《信息技术》2016,(10):190-193
首先简要介绍了中文分词的应用领域,指出中文分词所面临的问题,歧义语句和未登录词的识别率低的现状。然后,在传统的机械分词算法基础上,改进算法,引入了多种优化技术。基于上述理论和改进算法,设计并实现了一个改进的中文分词系统,不仅能够保证快速分词,而且提高了分词的正确率,改善了歧义语句和未登录词的识别率低的问题。  相似文献   

20.
论文研究和探讨了安全网关内容过滤硬件加速技术。通过采用内容过滤硬件加速系统,解决了高速网络边界网关的内容过滤性能瓶颈,基于Linux的Netfilter框架,实现了内容过滤原型系统,并对实现的硬件加速原型系统进行了对比实验,测试结果验证了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号