排序方式: 共有22条查询结果,搜索用时 15 毫秒
1.
2.
3.
Spark Streaming作为主流的开源分布式流分析框架,性能优化是目前的研究热点之一。在Spark Streaming性能优化中,业务场景下的配置参数优化是其性能提升的重要因素。在Spark Streaming系统中,可配置的参数有200多个,对参数调优人员的经验要求较高,未经优化的参数配置会影响流作业执行性能。因此,针对Spark Streaming的参数配置优化问题,提出一种基于深度强化学习的Spark Streaming参数优化方法(DQN-SSPO),将Spark Streaming参数优化配置问题转化为深度强化学习模型训练中的最大回报获得问题,并提出权重状态空间转移方法来增加模型训练获得高反馈奖励的概率。在3种典型的流分析任务上进行实验,结果表明经参数优化后Spark Streaming上的流作业性能在总调度时间上平均缩减27.93%,在总处理时间上平均缩减42%。 相似文献
4.
突发事件在微博中迅速传播,产生巨大的影响力,因此,突发舆情受到政府、企业的广泛关注.现有的突发话题检测算法只考虑单一的特征实体,无法处理微博中新词、图片、链接等诱导的突发.面向大规模微博消息流,提出一种无需中文分词的实时突发话题检测框架模型.模型依据消息流动态调整窗口大小,并通过传播影响力度量实体的突发权值.采用高阶联合聚类算法同时对实体、消息、用户进行聚类分析,在检测突发话题的同时,得到话题的关联消息及参与用户.对比实验结果表明,算法的准确性高,能够更早地检测到突发话题. 相似文献
5.
6.
针对大规模微博中多实体间的稀疏关系数据,提出一种面向多实体稀疏关系数据的高效联合聚类算法。在算法中,为了充分利用多关系数据,提出了一种顽健的约束信息嵌入方法构建关系矩阵,降低了矩阵的稀疏性,进一步提高了算法的准确率。在稀疏约束的块坐标下降框架下,关系矩阵通过非负矩阵三分解算法同时获得不同实体的聚类指示矩阵。非负矩阵分解过程中,通过高效的投射算法实现快速求解,确保了聚类结果的稀疏结构。在人工和真实数据集上的实验表明,算法在3个指标上都具有明显提高,特别是在极端稀疏数据上的效果更加明显。 相似文献
7.
随着大数据时代的到来,如何从多源异构数据中准确地识别网络安全实体是构建网络安全知识图谱的基础问题。因此本文针对网络安全相关文本数据,研究支持海量网络数据的安全实体识别算法,为构建网络安全知识图谱奠定基础。针对海量的文本类网络数据中安全实体的高效精准抽取问题,本文基于Hadoop分布式计算框架提出改进的条件随机场(conditional random fields,CRF)算法,对数据集进行有效分割,实现安全实体的高效准确识别。在大规模真实网络数据集上的实验证明,本文提出的算法达到了较高的网络安全实体识别准确率,同时提高了识别的效率。 相似文献
8.
传统的勒索软件动态检测方法需要收集较长时间的软件行为,难以满足勒索软件及时检测的需求.本文从勒索软件及时检测的角度出发,提出了"勒索软件检测关键时间段(Critical Time Periods for Ransomware Detection,CTP)"的概念,并基于CTP的要求提出了一种基于应用程序编程接口(Application Programming Interface,API)短序列的勒索软件早期检测方法(Ransomware Early Detection Method based on short API Sequence,REDMS).REDMS以软件在CTP内执行时所调用的API短序列为分析对象,通过n-gram模型和词频-逆文档频率算法对采集到的API短序列进行计算以生成特征向量,然后运用机器学习算法建立检测模型对勒索软件进行早期检测.实验结果显示,REDMS在API采集时段为前7s且使用随机森林算法时,分别能以98.2%、96.7%的准确率检测出已知和未知的勒索软件样本. 相似文献
9.
机器学习涉及一些隐含的敏感数据,当受到模型查询或模型检验等模型攻击时,可能会泄露用户隐私信息。针对上述问题,本文提出一种敏感数据隐私保护“师徒”模型PATE-T,为机器学习模型的训练数据提供强健的隐私保证。该方法以“黑盒”方式组合了由不相交敏感数据集训练得到的多个“师父”模型,这些模型直接依赖于敏感训练数据。“徒弟”由“师父”集合迁移学习得到,不能直接访问“师父”或基础参数,“徒弟”所在数据域与敏感训练数据域不同但相关。在差分隐私方面,攻击者可以查询“徒弟”,也可以检查其内部工作,但无法获取训练数据的隐私信息。实验表明,在数据集MNIST和SVHN上,本文提出的隐私保护模型达到了隐私/实用准确性的权衡,性能优越。 相似文献
10.
利用网络隧道进行攻击、窃密等成为近年来网络安全领域的热点问题。如何提高大规模网络隧道检测分析时带来的识别精度低的问题亟需解决。针对基于DNS、HTTP协议的主流隧道检测问题,提出一种基于自动特征工程与压缩感知相结合的网络隧道检测方法。通过自动特征工程挖掘出更深层次的网络隧道特征,同时通过压缩感知算法在不损失高维特征精度的基础上实现降维,提高计算效率。在大规模真实数据集上实验结果表明,DNS隧道检测的F-measure值能达到95%,HTTP隧道检测的F-measure值能达到82%以上。 相似文献