期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	2篇
免费	0篇

专业分类

自动化技术

2篇

出版年

2020年

2篇

排序方式： 共有2条查询结果，搜索用时 15 毫秒

分布式爬虫的研究与实现

马蕾冯锡炜窦予梓高天铸朱睿吴衍兵《计算机技术与发展》2020,(2):192-196

网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术。采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示。运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据。通过分布式集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的可行性。通过页面解析流程实验分析,基于Nutch的分布式爬虫与其他爬虫多组实验数据对比结果表明,基于Nutch的分布式爬虫项目在性能和准确度方面都优于传统其他爬虫。相似文献

改进贝叶斯的语义推送算法设计

朱睿冯锡炜窦予梓高天铸马蕾吴衍兵《计算机技术与发展》2020,(3):104-110

教育信息语义本体构建是通过语义本体构建方式去设计教育信息本体库。本体间逻辑关系表示方法,是构建出有逻辑结构的教育信息集合的过程。实现教育信息的半结构化数据归类,对不同时间采集的归类数据在规定好的模型中进行计算—词汇频度分析模型。词汇频度分析模型运用逆概率的贝叶斯思想,经过对传统贝叶斯算法与语义本体性质相结合,使MapReduce善于处理半结构化数据;经过对语义本体构建的教育信息数据结合词汇频度分析模型进行计算,获得教育信息本体的推荐能力值E i;通过对不同本体E i值进行排序,获得了推荐信息的顺序;根据推荐权重进行信息的推送工作,同时根据JS指数,经过比较基于词汇频度分析模型与目录结构推送算法的分析结果得出:词汇频度分析模型优于基于目录结构推送算法。相似文献