首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
基于URL过滤与内容过滤的网络净化模型   总被引:2,自引:1,他引:2  
在信息时代里,信息爆炸似地增长着,而为数众多的不良信息充斥其中。针对这种现状,许多的公司与研究机构都提出了自己的过滤模型。文中在研究过去模型的基础上,提出了一种高效可靠的网络净化模型。该模型在运用WCCP协议的前提下,结合了URL过滤和内容过滤这两种过滤方法对网络信息进行过滤,改进了传统的URL过滤算法。  相似文献   

2.
Web内容过滤实现方法的研究   总被引:5,自引:0,他引:5  
马文斌  王庆 《计算机工程》2004,30(Z1):588-589
介绍了Web内容过滤的技术原理以及如何通过防火墙实现的方法。通过所设计的"内容过滤模型"体现出"用防火墙实现内容过 滤"的优势。该模型把URL过滤和文本关键词过滤二种技术相结合。在不降低过滤精度的基础上提高了过滤速度。还论述了对经典过滤算法 以及参数设置的改进,最后以实例介绍在防火墙上的实现方法。  相似文献   

3.
Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响.  相似文献   

4.
防火墙通过URL过滤控制对因特网信息资源的访问.为了在高速防火墙上实现URL过滤,本文提出了位图法以改进URL过滤器的哈希表数据结构,提高哈希表查找速度;提出了快速压缩法,降低过滤器的空间占用.经过位图法和快速压缩法改进,并应用高速缓存优化后,采用实验对URL过滤器进行性能评价,发现URL过滤的平均时间下降了253.7%。空间下降了25.7%.  相似文献   

5.
海量URL会造成网络内容过滤系统索引效率低下。该文提出一种基于CPat-Tree改进的URL分级信息存储模型的裁剪算法,通过键值相似度实现键聚类,直接对存储数组遍历以合并相似的叶子节点,减少索引占用空间,提高查询效率。该方法裁剪前后的存储空间变化效果取决于键相似度,因此其具有良好的扩展性。  相似文献   

6.
凭借ISA Server的应用层过滤功能,你可以根据URL、响应字符串、特征或文件类型等多种手段把恶意内容拒之门外。[编者按]  相似文献   

7.
网络实时内容过滤技术在现实生活中得到了广泛的应用和发展,该文从实时内容过滤存在的种种不足出发,结合现有的网络拓扑结构和网络技术应用,利用多种先进网络技术手段,配合Linux和Squid这一开放源代码的软件系统,提出了一种基于特定网络架构的内容过滤实现框架,该框架采用内容分析和网址过滤相互协同、分时工作的方法,可很好地提高内容过滤的准确性和实时性。  相似文献   

8.
在移动终端内容安全检测中,“黑名单”过滤是一种常用的手段,但有限的存储空间制约了它的应用。根据“黑名单”过滤特点研究了一种多串匹配算法的改进,以Aho-Corasick算法为例,采用两种启发式策略从不等长的URL串中提取具有代表性的、等长的模式子串,并使用双数组进一步压缩。在Nokia 5230上的测试表明,该算法的存储空间是经典AC算法的0.7%,而速度可达到95%以上。  相似文献   

9.
电子邮件(E-mail)是Intemet应用最广的服务之一.针对邮件的安全问题,在分析电子邮件工作原理的基础上,提出了内容相关过滤方法并设计了一个具有过滤功能的电子邮件客户端系统.  相似文献   

10.
一种快速的基于URL的垃圾邮件过滤系统   总被引:2,自引:0,他引:2  
垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查询邮件中是否含有URL黑名单中的URL地址,来识别垃圾邮件。在URL地址查询过程中,采用Hplf散列函数来加速查询。通过试验测试,该系统能有效地减少垃圾邮件的数量。  相似文献   

11.
梁志荣 《微计算机信息》2006,22(21):291-293
由于传统的筛选方法在执行效率和准确率上都不能满足网页信息提取的需要,我们提出了一种新的基于领域知识的筛选方法。这种方法不仅通过网页的内容进行筛选,而且利用网页特点,通过URL聚类的方法进行筛选。实验表明,这种方法提取效率和准确性都要高于传统的算法。  相似文献   

12.
讨论了基于URL的网页内容过滤器的设计与实现。通过对Linux系统内核模块的分析,设计通过网络包截获、网络包过滤两个步骤进行过滤器的实现。在设计过程中,探讨并实现了URL阻挡树模型、七下层通信的技术(上下层大规模数据传输和内核主动发信号给进程的技术)和包的截获技术。  相似文献   

13.
介绍布隆过滤器的相关理论,对MD5哈希算法进行较为详细的分析,对GPU和CPU的结构及运算特点进行分析比较,提出一种基于布隆过滤器并使用GPU进行URL的MD5计算的网页搜索去重方法。  相似文献   

14.
一种基于内容的混合模式过滤模型   总被引:1,自引:0,他引:1       下载免费PDF全文
目前的文本内容过滤系统大多是基于关键词的,在对准确性过滤要求不高的情况下可以完成过滤任务。为进一步提高过滤效率,该文提出一种基于内容的混合模式过滤模型,引入语义分析技术,在关键词匹配技术的基础上进行语义框架的匹配,从而保证信息过滤的速度,改善信息过滤的准确度。通过实例对其有效性进行了验证。  相似文献   

15.
为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模式关系图,计算出各模式的重要度;在聚焦爬虫阶段,无需预先下载页面,即可利用生成的URL模式判断页面是否主题相关和能否指导爬虫深入抓取,并根据URL模式的重要度预测待抓取链接优先级。实验表明,该爬虫相比现有的主题爬虫能快速引导爬虫抓取主题相关页面,保证爬虫的查准率和查全率,有效提高爬虫抓取效率。  相似文献   

16.
针对深层网查询结果页面中噪音信息对数据区域识别的干扰问题,提出一种自动识别深层网查询结果数据区域的方法。该方法利用网页的重复结构和相似URL,将页面划分成不同的语义块,依据不同页面块之间URL的相似性识别出数据区域。实验结果表明,该方法能够提高数据区域识别的召回率和准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号