首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
网络直播的兴起,促使直播弹幕成为一种新型的交流方式.随之而来的还有各类非法弹幕.在识别非法弹幕方面,人工筛选过于低效,传统关键词过滤方法和统计机器学习方法识别率较低,且无法应对变异短文本.如何让机器更高效、更准确地识别非法弹幕以营造更好的网络环境是一个很有意义的问题.提出了基于文本卷积神经网络(TextCNN)的带噪非...  相似文献   

2.
弹幕评论是网络直播平台与用户交互的主要方式之一,借助弹幕行为的分析可以更有效地实现对网络直播平台的用户理解.通过采集和利用3大热门直播平台(斗鱼、熊猫与战旗)的弹幕相关数据,本文以假设验证的方式从用户属性与用户行为两个角度对在线直播平台用户进行分析与理解,并建立基于用户行为特征时间序列的用户活跃模型对用户互动活跃度进行量化评估.研究表明,平台在线人数具有周期性变化的时间规律,观众地域具有沿海发达城市集中分布的空间取向,所提出的用户活跃模型能够对网络直播平台用户的行为活跃趋势做出合理的预测分析.  相似文献   

3.
基于Hadoop的分布式并行增量爬虫技术研究   总被引:1,自引:0,他引:1       下载免费PDF全文
面对多媒体社交网络中在线视频的爆炸式增长,使用单机模式下爬虫提取新视频页面的效率低下,为此,提出一种基于Map/Reduce的并行算法,大大提高了爬虫的效率。但是为了进一步改善数据冗余问题,减少过时页面的更新,改进了一种精度感知增量更新算法,利用监控技术监控网页变化情况,分析网页更新模式,增加新鲜度评估和降维处理,使用混合整数二次规划方法为发生更改的网页制定最优的刷新策略。实验证明,相比单机模式下定期频繁的刷新策略,该并行增量方法以原刷新代价的36.7%获得了79%的信息精确度,爬虫效率提高了167倍。  相似文献   

4.
针对中文直播语料具有长度简短、用语不规范、字母数字混杂等特点,使得通常的新词发现方法效果不佳的问题,在现有基于词内部结合度与边界自由度的无监督新词发现算法基础上,引入了边界增强上下文熵的概念,使其适用于通常出现于句子片段边界位置的词语.在某知名直播平台的弹幕语料上进行了实验,结果表明:方法模型简洁,可有效提取新词,并能够通过调整参数适应不同规模的语料输入,且时空复杂度与执行性能良好.  相似文献   

5.
本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。  相似文献   

6.
微博作为优质的数据源,其中的数据非常适合做舆情分析等。新浪官方提供的API限制数据采集速度,而利用模拟登录的网络爬虫采集数据又相对复杂且会降低效率。针对这些问题,设计了一个免登录的微博网络爬虫。通过实验表明,该爬虫可以更快的对微博数据进行完整稳定的采集。随着对数据需求量越来越大,单机网络爬虫已经不足以满足要求,将Hadoop分布式计算平台与免登录爬虫相结合,设计了一个基于MapReduce的分布式网络爬虫系统,利用多台计算机组成的集群,实现短时间内免登录抓取海量微博数据。通过实验证明,该爬虫系统可以每天稳定抓取近千万条微博。  相似文献   

7.
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。  相似文献   

8.
随着互联网技术的发展,数据资源逐渐成为人们关注的焦点,通过网络爬虫获取数据的技术受到广泛的研究。同时,由于人们获取数据的需求日益增长,爬虫的使用者往往会使用反爬虫的对抗技术来获取自己所需的数据。围绕爬虫技术与爬虫的对抗技术进行研究,结合实践,讨论如何采取相应的措施对抗爬虫,实现对网站数据资源的保护。  相似文献   

9.
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品.作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引.介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,...  相似文献   

10.
受到学习模型爬虫的启发,主题爬虫结合网页内容和链接信息来估计网页对给定主题的相关性,得到两个新型的爬虫变种。新型爬虫强调的不仅是有学习相关网页内容的能力,而且有引向相关网页的能力,并且在查找特定主题方面的能力有质的提高。  相似文献   

11.
分布式网络监控的时钟同步问题研究   总被引:2,自引:0,他引:2  
范逊  宋成 《计算机应用与软件》2007,24(5):131-132,150
介绍了CNIC分布式网络监控器及其时钟同步问题,根据分布式监控对NTP的需求,设计了相应的部署方案,并对NTP服务的运行情况进行了分析.  相似文献   

12.
服务可扩展性是网络研究中一种非常重要的属性,它的优劣决定着网络系统未来的可用性。综合现有的网络服务可扩展性及其分析方法所面临的问题,用统一的描述方式将不同的网络系统的服务行为抽象为服务拓扑模型,用统一的评价模型进行服务可扩展性分析,以便能够对不同的网络系统进行比较全面而正确的可扩展性评价。利用该可扩展性分析方法对网络路由系统进行实验建模,使用NS2对实验模型进行仿真实验,验证其适用性和优越性,为进一步研究新型网络及其扩展性提供可靠依据。  相似文献   

13.
莫松峰  王占林 《机器人》1992,14(4):25-28
本文描述了一种四足步行机器人的递阶、分布式实时计算机控制系统,介绍了该系统的结构及实现方案,讨论了关节位置的开关控制问题及步行机器人的总体控制问题.最后论述了步行实验结果.  相似文献   

14.
基于对象的分布式实时系统调度模型研究   总被引:2,自引:0,他引:2  
为了解决分布式实时系统有关分配和调度等问题,给出并用形式化方法描述了一种基于对象分布式实时系统调度的通用模型。该模型包括表示时限的绝对时间约束,表示周期属性的周期约束,表示各种前趋关系和同步要求的相对时间约束以及保证资源使用一致性的一致性约束,此外该模型克服了以往模型不能在应用系统的逻辑和功能部件上描述系统实时的约束的不足,允许从方法和活动上描述所需的约束,降低了单一约束描述的繁杂程度,为了能够使用现有调度算法进行任务调度,讨论了约束转换的问题,给出了高层约束到底层约束的转换规则和相应的转换算法。  相似文献   

15.
Web Services服务质量度量工具的研究   总被引:1,自引:0,他引:1  
提出了一种基于API Hook技术的方法来对Web Services的服务质量(QoS)进行度量,该方法可以在Web服务的客户端和服务端度量多种QoS属性,具有客观化、自动化和轻量化的特点.还给出了一个基于该方法的度量工具原型实现.  相似文献   

16.
本文发展了文献「1」的矢量汉字库生成算法,它可以解决原算法不能解决的孤立点以及仅由两点构成的直线段的处理问题。  相似文献   

17.
基于网格服务的校园信息共享系统的研究   总被引:8,自引:0,他引:8  
随着信息和网络技术的发展,信息化建设已成为高校的一项重要的基础工作。然而在建信息系统时。缺少全局的规划,造成了学校各部门信息系统异构,难以共享,形成了“信息孤岛”。为了消除校园中的“信息孤岛”,本文提出了一个基于网格服务信息共享系统的方案,将校园内信息系统进行整合,实现信息共享。  相似文献   

18.
缓存技术在系统中的应用越来越广泛.主要对数据缓存进行研究,着重研究了分布式模式下的数据缓存技术.将数据缓存技术应用到社区平台的开发中,增加分布式解决方案.实验证明,分布式数据缓存技术能优化系统性能,提升数据访问效率.  相似文献   

19.
郭皎  鄢沛 《计算机应用与软件》2008,25(3):111-113,148
异构Web Services间的无缝互操作是成功构建基于Web Services应用的关键之一.讨论了Web Services互操作性概要和Web Services基本交互模式,详细分析了Web Services互操作原理和Web Services描述;说明了Web Services的类型定义中的类型不匹配、不可用类型、精度和值/引用类型等问题对互操作性的影响,并给出了处理方案;同时还分析了在Web Services的调用过程中采用的SOAP编码和消息模式、Web Services约束等问题.最后针对当前应用较广泛J2EE和.NET的两个平台的Web Services的互操作设计作了简要设计.  相似文献   

20.
云计算环境下的数据管理和存储呈现出异构、分布式和动态等特点,为数据处理系统的设计和开发带来一定挑战,数据处理过程的协同是解决上述问题的有效手段。在协同计算模型分析的基础上,提出一种数据处理的协同机制,重点研究分布式数据的协同管理和任务的协同调度。实际的案例分析表明,该机制和方法可以大大提高并行数据处理的能力,为云计算环境下的数据处理平台的研发提供了一种可行的思路和方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号