共查询到20条相似文献,搜索用时 109 毫秒
1.
目前对网页挂马攻击的检测手段主要有网页代码特征匹配与高交互虚拟蜜罐技术,前者难以对抗代码加密与混淆变形技术,后者资源消耗较大难以在客户端直接部署.提出一种新型的基于HTTP会话过程跟踪的网页挂马攻击检测方法.首先跟踪用户访问正常网页与挂马网页的HTTP会话过程,并分析比较两者统计特征,包括会话链接树特征与所引用域名的特征等.进一步,基于会话过程统计特征及采用有监督的机器学习技术,建立了能有效识别挂马网页会话过程的分类模型.实验证明,该模型能够达到91.7%的网页挂马攻击检测率以及0.1%误检率. 相似文献
2.
网页代理提供了一种快捷的中继服务,与其它类型的代理服务相比,如隐匿网络/VPN服务/Socks代理等,用户可以不需要安装任何软件就免费使用。因此,网页代理在绕过访问限制、隐藏身份等方面的便利性上有其不可比拟的优势。然而,网页代理在获取个人隐私信息、推送垃圾广告、隐匿行踪等方面也给人们的网络生活带来严重的安全威胁。所以,如何快速有效地将它们与大量正常网页区分开来成为网络空间安全面临的一个重要挑战。针对这一问题,本文提出了一种基于多维特征分析的网页代理发现方法——ProxyMiner。在主动发现方面,引入了网页代理特有的结构特征和内容特征,通过机器学习的方法进行预测发现。在被动发现方面,基于用户访问网页代理特有的访问模式,通过构建二分图对代理用户进行谱聚类分析,获取代理用户群体访问的顶级域名,从而发现网页代理。此方法仅基于客户端IP地址和目标URL,不需要任何有关HTTP头(经常会被恶意修改)或数据包(通常是加密的或不可用的)的信息。实验结果表明,在相同数据集上,相比于传统检测方法,ProxyMiner可以显著提高网页代理检测效果,降低平均检测时间。 相似文献
3.
Web集群服务器已被广泛用来提高Web服务器的性能。对于如今内容海量级的大型网站来说,如何在Web集群服务器上组织和分布Web文档是一个急需解决的问题。本文提出了一种Web集群服务器中文档组织和分布的优化策略,其目是减少集群系统的平均响应时间。通过对Web服务器日志的分析,挖掘客户的访问模式,将关联度高的网页聚类成网页簇,然后根据网页簇的负载计算其拷贝份数,最后在集群中优化分布各网页簇的拷贝。以这种方法组织和分布文档,可以减少服务器端的TCP连接迁移开销,可以实现集群内的负载均衡,从而减小集群系统的平均响应时间;且相对于内容全镜像的文档分布方案,节约了存储空间,减少了维护各服务器文档一致性的开销。 相似文献
4.
缩短Web访问中的用户感知时间,是Web应用中的一个重要问题,服务器需要预测用户未来的HTTP请求和处理当前的网页以提高Web服务器的响应速度,为此提出了一种基于用户访问模式的Web预取算法.该算法根据Web日志信息分析了用户的访问模式,并计算出Web页面间的转移概率,以此作为对用户未来请求预取的依据.实验结果表明,该预取算法能有效提高预测精度和命中率,有效地缩短了用户的感知时间. 相似文献
5.
基于结构相关性Markov模型的Web网页预取方法 总被引:2,自引:0,他引:2
预取技术通过在用户浏览当前网页的时间内提前取回其将来最有可能请求的网页来减小实际感知的获取网页的时间。预测的准确性和方法的可用性是预取技术需要解决的主要问题。针对目前Web网页预取的一般方法的不足之处,提出了一种基于结构相关性Markov模型的Web网页预取方法。仿真实验的结果表明,这种方法在保证一定预测准确性的同时也具有较好的可用性,能够在减小用户访问延迟、提高响应速度方面达到较为满意的效果。 相似文献
6.
具有访问时间完整性的Web日志方法 总被引:4,自引:0,他引:4
Web服务器日志记录了外部用户对本服务器的访问信息,是分析网站的重要数据。但是根据当前流行的几种Web日志格式来看,它们所记录的时间数据并不完整;当用户访问一个网页时,只记录了访问该网页的开始时间,而没有记录访问结束时间。这将造成访问信息的丢失,给今后的分析工作(如访问时间统计、用户会话识别等)带来困难。本文提出了一种Web日志方法,它能克服目前Web服务器日志的这一缺点,记录完整的时间信息. 相似文献
7.
基于数据挖掘的个性化网页推送服务模式研究 总被引:1,自引:1,他引:0
周文鹏 《计算机与数字工程》2010,38(8):58-61
为满足用户及时获取个性化信息的需求,利用数据挖掘中的聚类分析方法对Web日志数据进行聚类,对网站已有用户的访问行为进行划分,得出各类别用户网页推送的数据集;采用关联规则方法提取聚类结果中各个簇的访问规则,完成个性化页面推送服务。结果表明该模式能够实现网站个性化页面推送的功能。 相似文献
8.
针对传统PageRank算法存在的平分链接权重和忽略用户兴趣等问题,提出一种基于学习自动机和用户兴趣的页面排序算法LUPR。在所提方法中,给每个网页分配学习自动机,其功能是确定网页之间超链接的权重。通过对用户行为进一步分析,以用户的浏览行为衡量用户对网页的兴趣度,从而获得兴趣度因子。该算法根据网页间的超链接和用户对网页的兴趣度衡量网页权重计算每个网页的排名。最后的仿真实验表明,较传统的PageRank算法和WPR算法,改进后的LUPR算法在一定程度上提高了信息检索的准确度和用户满意度。 相似文献
9.
基于角色的网页访问权限控制方案 总被引:5,自引:0,他引:5
文章提出了一种基于角色的网页访问权限控制方案,并用于B/S结构的网络办公系统中。用户使用时只需一次登录即可实现整个会话期间的网页访问权限控制。按照该方案,用户在部门之间流动或岗位变化时,用户的操作界面和对网页的访问权限能够动态的改变。 相似文献
10.
11.
Web信息抽取中需要对目标网站的网页进行聚类分析,以检测并生成信息抽取所需的模板。传统的基于DOM树编辑距离的网页聚类算法不适合文档对象模型(DOM)树结构复杂的动态模板网页,提出了一种基于局部标签树匹配的改进网页聚类算法,利用标签树中模板节点和非模板节点的层次差异性,根据节点对布局影响的大小赋予节点不同的匹配权值,使用局部树匹配完成对网页结构相似性的有效计算。实验结果表明,改进的算法较传统的基于DOM树编辑距离的网页聚类算法,在对采用模板生成的动态网页进行聚类分析时具有更高的准确率,且时间复杂度低。 相似文献
12.
Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,采用我们提出的度量标准得到的结果准确性更高,更接近于用户浏览兴趣。 相似文献
13.
随着Web技术的发展和Web上越来越多的各种信息,如何提供高质量、相关的查询结果成为当前Web搜索引擎的一个巨大挑战.PageRank和HITS是两个最重要的基于链接的排序算法并在商业搜索引擎中使用.然而,在PageRank算法中,每个网页的PR值被平均地分配到它所指向的所有网页,网页之间的质量差异被完全忽略.这样的算法很容易被当前的Web SPAM攻击.基于这样的认识,提出了一个关于PageRank算法的改进,称为Page Quality Based PageRank(QPR)算法.QPR算法动态地评估每个网页的质量,并根据网页的质量对每个网页的PR值做相应公平的分配.在多个不同特性的数据集上进行了全面的实验,实验结果显示,提出的QPR算法能大大提高查询结果的排序,并能有效减轻SPAM网页对查询结果的影响. 相似文献
14.
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。 相似文献
15.
针对海量网页在线自动高效获取网页分类系统设计中如何更有效地平衡准确度与资源开销之间的矛盾问题,提出一种基于级联式分类器的网页分类方法。该方法利用级联策略,将在线与离线网页分类方法结合,各取所长。级联分类系统的一级分类采用在线分类方法,仅利用锚文本中网页标题包含的特征预测其分类,同时计算分类结果的置信度,分类结果的置信度由分类后验概率分布的信息熵度量。若置信度高于阈值(该阈值采用多目标粒子群优化算法预先计算取得),则触发二级分类器。二级分类器从下载的网页正文中提取特征,利用预先基于网页正文特征训练的分类器进行离线分类。结果表明,相对于单独的在线法和离线法,级联分类系统的F1值分别提升了10.85%和4.57%,并且级联分类系统的效率比在线法未降低很多(30%左右),而比离线法的效率提升了约70%。级联式分类系统不仅具有更高的分类能力,而且显著地减少了分类的计算开销与带宽消耗。 相似文献
16.
17.
面对互联网上占据全国页面总数50%以上的动态页面,当前网络舆情管控工作中的信息采集环节对以动态页面为主要发布形态的互联网媒体无法实现信息获取。鉴于此,文中提出了基于Rhino实现JavaScript动态页面解析的整体方案。实验结果表明该方案充分丰富了互联网舆情管控工作的数据源对象,是实现动态页面内超链接网络地址递归获取和网页主体内容提取行之有效的解决方案。 相似文献
18.
主题爬行中的隧道穿越技术 总被引:2,自引:0,他引:2
由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页,即隧道穿越.将隧道穿越分为灰色隧道穿越和黑色隧道穿越.对于灰色隧道,在爬行过程中,将一个多主题Web页面分割成数量不多的内容块分别处理来避免由于网页整体主题不相关给该块所带来的影响.对于黑色隧道的穿越,将隧道中主题不相关网页根据其父亲页面的主题相关性赋予一个深度值,然后根据其深度值的大小进行取舍,来达到扩展主题爬行区域的目的.实验结果显示,这两种方法都达到了预期效果,所以方法是有效、稳健和实用的. 相似文献
19.
基于Rhino的JavaScript动态页面解析研究与实现 总被引:1,自引:0,他引:1
面对互联网上占据全国页面总数50%以上的动态页面,当前网络舆情管控工作中的信息采集环节对以动态页面为主要发布形态的互联网媒体无法实现信息获取.鉴于此,文中提出了基于Rhino实现JavaScript动态页面解析的整体方案.实验结果表明该方案充分丰富了互联网舆情管控工作的数据源对象,是实现动态页面内超链接网络地址递归获取和网页主体内容提取行之有效的解决方案. 相似文献