首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   2篇
  免费   0篇
自动化技术   2篇
  2020年   2篇
排序方式: 共有2条查询结果,搜索用时 15 毫秒
1
1.
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术。采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示。运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据。通过分布式集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的可行性。通过页面解析流程实验分析,基于Nutch的分布式爬虫与其他爬虫多组实验数据对比结果表明,基于Nutch的分布式爬虫项目在性能和准确度方面都优于传统其他爬虫。  相似文献   
2.
教育信息语义本体构建是通过语义本体构建方式去设计教育信息本体库。本体间逻辑关系表示方法,是构建出有逻辑结构的教育信息集合的过程。实现教育信息的半结构化数据归类,对不同时间采集的归类数据在规定好的模型中进行计算—词汇频度分析模型。词汇频度分析模型运用逆概率的贝叶斯思想,经过对传统贝叶斯算法与语义本体性质相结合,使MapReduce善于处理半结构化数据;经过对语义本体构建的教育信息数据结合词汇频度分析模型进行计算,获得教育信息本体的推荐能力值E i;通过对不同本体E i值进行排序,获得了推荐信息的顺序;根据推荐权重进行信息的推送工作,同时根据JS指数,经过比较基于词汇频度分析模型与目录结构推送算法的分析结果得出:词汇频度分析模型优于基于目录结构推送算法。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号