共查询到20条相似文献,搜索用时 31 毫秒
1.
随着互联网上信息量的爆炸式增长,海量网页数据的存储出现了难题.针对海量网页数据进行存储的问题,传统的集中式存储和管理方案已经难以提供高效、可靠和稳定的服务.本文设计并实现了一种针对海量网页数据进行存储的分布式平台模型.该模型利用Ha-doop集群和基于HDFS分布式文件系统的Hbase数据库实现高效率地分析、计算和存储海量数据,以MapReduce计算模型和Zookeeper同步协同系统保持数据写入的高效性和一致性.最后通过实验测试,该存储模型可以克服传统的存储模型存储时存在的读写效率低、数据写入不一致的问题,同时具有良好的扩展性、可行性、稳定性和可靠性. 相似文献
2.
目前,电影电视广播等视听资源通过互联网传播日益成为主流,如何才能高效的从海量的互联网网页中识别出视频网页,达到快速有效地甄别,成为进行互联网视频监管监测相关工作的关键。文章在分析视频网页传播特征的基础之上,提出了一种视频网页识别算法,利用专用的模板与广泛特征结合的方式实现了视频网页的识别,从而有效地提高了视频网页识别的效率和准确性,更好地为互联网视频监管工作服务。 相似文献
3.
随着互联网的迅猛发展,网页已经成为人们日常发布和获取信息的重要途径,给人们带来了极大的便利。然而,安全挑战也随之而来,层出不穷的网页入侵手段严重影响着互联网的长远应用和发展,尤其是网页挂马是一个十分泛滥的攻击方式,严重威胁着用户安全。针对此问题,本文提出了一种基于沙箱技术的检测系统,能够动态地检测和抵御网页木马攻击。在安全性上,所提系统通过高交互蜜罐中多个沙箱技术,动态地模拟网页木马攻击过程,进而能够分析和抵御应用层、系统层和内核层的恶意行为,实现了多层检测。在效率上,所提系统采用了轻量级的沙箱技术,在内核层涉及较少调用,着重在应用层HOOK相关API实现检测,提高了效率表现。实验评估分析表明,所提系统能够获得较好的性能。 相似文献
4.
基于统计与代码特征分析的网页木马检测模型 总被引:1,自引:0,他引:1
采用传统的基于特征码比对的方式检测网页木马比较困难,为此提出了一种基于统计与代码特征分析的网页木马检测模型。采用内部特征与外部特征结合,并利用统计学的方法进行综合分析,最终判别待检测网页是否有网页木马。实验表明,该方法可以有效地检测网页木马,提高检测效率和精度,对未知及变形网页木马有一定的检测能力。 相似文献
5.
6.
面向主题的网络蜘蛛技术研究及系统实现 总被引:3,自引:0,他引:3
首先研究了面向主题的网络蜘蛛的关键技术:抓取目标描述、网页分析算法和网页搜索策略等,在此基础上,设计并实现了一个面向主题的网络蜘蛛系统(简称主题蜘蛛),采用向量空间模型来计算网页的主题相关度,使用改进的Shark-Search网页搜索策略来决定待抓取链接的访问次序,从种子网页开始,只爬行具有较高预测相关度的链接,仅采集与主题相关的网页,多线程对网页进行下载和分析,提高了主题网页采集的精度. 相似文献
7.
8.
对海量的短文数据进行自动分析和挖掘,从中获取有价值的隐含知识已经成为一项迫切的需求。动态文本会话抽取是针对MSN,QQ等动态数据,将属于同一会话但相互交错的不同消息文本组织在一起,属于在线话题发现追踪的新兴领域,在信息检索,文本挖掘和话题检测追踪等方面有着重要应用。首先介绍了文本会话抽取的必要性和重要性,介绍其主要研究内容和结果评测方法;然后对其中多个研究内容提出一个统一研究框架,并对该框架中的关键技术进行了详细分析;最后指出该领域中的关键问题及难点,并对未来研究做出展望。 相似文献
9.
基于数据挖掘的分布式入侵检测系统研究 总被引:2,自引:0,他引:2
所谓数据挖掘,就是从海量数据中挖掘出感兴趣的模式。本文在给出了一个分布式入侵检测系统模型的基础上,将数据挖掘技术应用到该检测系统中,大大提高了检测系统的准确性、灵活性和可扩展性。 相似文献
10.
本文描述了一个微博热点检测系统。管理者通过它可以快速了解正在发生的或是已发生的微博热点事件。系统采用调用微博API接口与改进爬虫程序相结合的方式获取网页数据;由于网络数据量巨大,为了提高效率,还采用了网页清理技术;重点介绍了话题活性模型的方法,系统可以根据时间坐标快速寻找热点话题,提高了热点话题发现的效率,大大降低了热点话题发现的时间复杂度。 相似文献
11.
苟元琴 《信息技术与信息化》2022,(1):64-67
针对互联网时代网络言论不断增加而带来的监管难题,设计了基于语义识别和情感分析的网络舆情监测系统.首先,根据资源特征,构建了通用的网页爬取框架,通过去噪和去重后将结构化舆情信息储存到数据库中;然后,对分类特征进行降维处理并改进分类算法,同时,针对话题发现模型中存在的问题,提出一种情感词典扩充方法,能够对未知的情感词进行情... 相似文献
12.
鉴于传统的检测方案无法准确地检测复杂多变的网页木马行为,文中提出一种基于行为特征权重分析的检测模型。总结网页木马的典型行为,利用权重分析的方法进行综合评价,最终根据阈值判别待检测脚本文件是否是网页木马。实验表明,该方法可以有效地检测网页木马,提高检测效率。该检测模型是对基于特征码检测技术的补充,在新型网页木马不断涌现的今天,在基于特征码检测技术中,具有一定的应用意义。 相似文献
13.
为实现对数控装备测量精度的快速检测,面向激光追踪测量系统设计了一套二维万向节式回转轴系。将高精度标准球作为反射单元固定安装在基座上,保证了激光追踪测量系统具有较大的跟踪角度,同时避免了轴系回转时的窜动和游动对测量结果的影响。分析了轴系结构中主要几何误差对激光追踪测量系统测量精度的影响,研究了轴系跳动误差与测量精度的关系,并简化了轴系跳动误差模型。实验结果表明,当轴系跳动误差在±5μm以内时,由该误差引起的激光追踪测量系统的测量误差不足0.1μm,保证了激光追踪测量系统具有消除跳动误差影响的能力。 相似文献
14.
15.
16.
随着电子签名法在中国的颁布,电子商务和电子政务的应用越发广泛,然而其安全性的有效保证依然是目前面对的一个难题.为解决这一难题,文中提出并设计了一种基于Web开发的应用软件系统--网页在线签批系统.该系统是在Visual Studio.NET平台下利用C#语言进行开发的,它能够利用保存在安全钥匙盘USBKey中的数字证书在网页上直接签名,从而有效地保证了网页文档在传输过程中用户身份的确定性及信息的完整性和不可抵赖性. 相似文献
17.
企业相关信息抽取技术研究与系统实现 总被引:9,自引:0,他引:9
从企业网页中抽取与企业相关的信息是商业上的实际需求,与之相关的研究既有挑战,又有理论意义。文章提出了一个能对中文网页中企业的各种不同类型的属性信息进行抽取的模型,并实现了一个企业相关属性信息抽取系统—CAIES。对该系统进行的测试结果统计表明,它不仅能够满足从网上获取企业竞争情报的实际需求,而且具有较高的抽取正确率与精确率。 相似文献
18.
现有的授权方式难以满足多种应用要求。提出一种基于策略的RBAC统一授权模型,并给出其实现方案。该模型以策略为基本构成要素,实现了根据多种属性的角色自动授予、角色冲突检测等功能。利用该模型能够以细粒度、灵活及与具体应用无关的方式授予用户权限,解决了大规模、海量用户系统难以自动授权的问题。基于该模型实现的统一授权与访问系统验汪了模型的有效性,可用在多种类型的应用系统上。 相似文献
19.
文章针对互联网中网页结构多样、易变等因素,通过研究网页结构中存在的一般规律,并结合DOM树和DBSCAN聚类算法,提出了新的Web信息提取算法.并详细介绍了构建DOM树和基于DBSCAN算法的网页内容提取.最后通过实验证明该算法能有效地获取网页中的正文信息,不依赖于网页结构,具有较强的通用性. 相似文献
20.
随着Web应用程序的普及,网络攻击和安全漏洞的风险日益增加。Web日志文件详细记录了网站运行信息,对日志中的流量进行分类从而检测出异常攻击流量是保障网页长期提供稳定、安全服务行之有效的方法之一。文中将Voting特征选择与Stacking集成相结合,构建了SVM-DT-MLP模型,并将其用于Web日志异常流量检测。测试结果表明,SVM-DT-MLP模型的性能显著优于单一算法模型,其Precision(精确度)达到92.44%,Recall(召回率)达到92.43%,F1-Score(F1值)达到92.44%。这意味着该模型能够有效地检测出异常攻击流量,并在保障网页提供稳定和安全服务方面具有很好的效果。 相似文献