期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王春凯庄福振史忠植《智能系统学报》2019,14(6):1278-1285

大规模数据流管理系统往往由上层的关系查询系统和下层的流处理系统组成。当用户提交查询请求时,往往需要根据数据流的流速和分布情况动态配置系统参数。然而,由于数据流的易变性,频繁改变参数配置会降低系统性能。针对该问题,提出了OrientStream+框架。设定以用户自定义查询延迟阈值为间隔片段的微批量数据流传输机制;并利用多级别管道缓存,对相同配置的数据流进行批量处理;然后按照数据流的时间戳计算出精准查询结果;引入基于异常检测的增量学习模型,用于提高OrientStream+的预测精度。最后,在Storm上实现了该资源配置框架,并进行了大量的实验。实验结果表明,OrientStream+框架可进一步降低系统的处理延迟并提高系统的吞吐率。相似文献

2.

基于Spark的高效并行自动编码机

庄福振钱明达申恩兆张大鹏何清《数据采集与处理》2018,33(1):65-74

机器学习中一个非常关键的问题就是如何获取良好的数据特征表示,许多经典的特征提取方法是基于数据间关系或利用简单线性组合降维后得到数据的特征表示。其中深度学习算法在各种学习任务中都可以取得良好的效果,而且可以学到很好的数据特征表示。但现有深度学习算法或模型大多为单机串行实现,不能处理较大规模的数据且运行时间较长。本文设计实现了一种基于Spark分布式平台的高效并行自动编码机,该编码机可以有效地进行特征表示学习,并且利用分布式计算平台Spark对算法进行加速,优化了对稀疏数据的操作,大大提升了运行效率。本文通过在文本数据特征学习以及协同过滤两个任务上的实验,表明本文所实现的并行自动编码机的有效性和高效性。相似文献

3.

基于云计算的大数据挖掘平台

何清庄福振《中兴通讯技术》2013,19(4)

开发了一个基于云计算的并行分布式大数据挖掘平台——PDMiner.PDMiner实现了各种并行数据挖掘算法,如数据预处理、关联规则分析以及分类、聚类等算法.实验结果表明,并行分布式数据挖掘平台PDMiner中实现的并行算法,能够处理大规模数据集,达到太字节级;具有很好的加速比性能;实现的并行算法可以在商用机器构建的并行平台上稳定运行,整合了已有的计算资源,提高了计算资源的利用效率;可以有效地应用到实际海量数据挖掘中.在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务. 相似文献

4.

基于MapReduce的并行PLSA算法及在文本挖掘中的应用 总被引：1，自引：0，他引：1

李宁罗文娟庄福振何清史忠植《中文信息学报》2015,29(2):79-86

PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。相似文献

5.

迁移学习研究进展 总被引：30，自引：7，他引：23

庄福振罗平何清史忠植《软件学报》2015,26(1):26-39

近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1)用于学习的训练样本与新的测试样本满足独立同分布的条件;(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向. 相似文献

6.

一种新型网络信息采集器的研究 总被引：2，自引：0，他引：2

林欢欢庄福振王文杰史忠植《计算机仿真》2009,26(5)

为了克服内容评价搜索策略算法"近视"和链接分析算法"主体偏移"的缺点,提出了一种使用内容评价搜索策略和链接分析策略结合的算法.使用的方法开发网络信息采集器能够极大地提高用户的检索速度,并能有效地限制检索领域,大大减小检索结果的信息冗余度,使用户能够快速获取其真正需要的信息.研究表明使用内容评价搜索策略和链接分析策略结合的算法开发网络信息采集器能够提高垂直搜索引擎快、精、准等方面的性能. 相似文献

7.

协同过滤推荐系统综述

下载免费PDF全文

赵俊逸庄福振敖翔何清蒋慧琴马岭《信息安全学报》2021,6(5):17-34

随着互联网和信息计算的飞速发展,衍生了海量数据,我们已经进入信息爆炸的时代。网络中各种信息量的指数型增长导致用户想要从大量信息中找到自己需要的信息变得越来越困难,信息过载问题日益突出。推荐系统在缓解信息过载问题中起着非常重要的作用,该方法通过研究用户的兴趣偏好进行个性化计算,由系统发现用户兴趣进而引导用户发现自己的信息需求。目前,推荐系统已经成为产业界和学术界关注、研究的热点问题,应用领域十分广泛。在电子商务、会话推荐、文章推荐、智慧医疗等多个领域都有所应用。传统的推荐算法主要包括基于内容的推荐、协同过滤推荐以及混合推荐。其中,协同过滤推荐是推荐系统中应用最广泛最成功的技术之一。该方法利用用户或物品间的相似度以及历史行为数据对目标用户进行推荐,因此存在用户冷启动和项目冷启动问题。此外,随着信息量的急剧增长,传统协同过滤推荐系统面对数据的快速增长会遇到严重的数据稀疏性问题以及可扩展性问题。为了缓解甚至解决这些问题,推荐系统研究人员进行了大量的工作。近年来,为了提高推荐效果、提升用户满意度,学者们开始关注推荐系统的多样性问题以及可解释性等问题。由于深度学习方法可以通过发现数据中用户和项目之间的非线性关系从而学习一个有效的特征表示,因此越来越受到推荐系统研究人员的关注。目前的工作主要是利用评分数据、社交网络信息以及其他领域信息等辅助信息,结合深度学习、数据挖掘等技术提高推荐效果、提升用户满意度。对此,本文首先对推荐系统以及传统推荐算法进行概述,然后重点介绍协同过滤推荐算法的相关工作。包括协同过滤推荐算法的任务、评价指标、常用数据集以及学者们在解决协同过滤算法存在的问题时所做的工作以及努力。最后提出未来的几个可研究方向。相似文献

8.

融合用户内容与关系结构的用户影响力算法

马慧芳师亚凯谢蒙庄福振《计算机应用》2015,35(12):3487-3490

为快速检测出信息传播的途径,减少恶意信息造成的影响,提出了一种迭代的融合用户内容与关系结构的用户影响力算法(CSIAI)。该算法通过用户微博内容建模,迭代计算出词-用户文档的相似性;另外通过微博的关注和被关注行为,建立用户关系结构,计算用户影响力权值,得到用户的影响力邻接矩阵,提取k个较大影响力的节点作为信息传播的路径。在检测仿真实验中,CSIAI以影响覆盖率和响应时间作为评价指标,根据扩充后的新知识库,确定CSIAI中参数α和β的关系。随着用户数量增长,CSIAI的影响覆盖率和响应时间性能明显优于PageRank、CELF和非迭代的融合用户内容与关系结构的用户影响力算法(CSIA)。实验结果表明,CSIAI能有效地检测到信息的传播情况。相似文献