共查询到19条相似文献,搜索用时 46 毫秒
1.
2.
大数据环境下的多源数据呈现出数据量大、数据种类多、数据变化快的特点,这些特点对数据更新提出了新的挑战。通过分析大数据下多源数据的特点,定义了演化数据的概念,基于此建立了大数据的动态变频遍历更新模型。首先通过抽象数据的演化方式,建立了演化数据的势与稳定性概念,从而推导出更一般的代数意义上的演化运算工具;其次通过将运算工具导入大数据数据更新的实际应用中,推导出基于概率的变频遍历与动态权值模型;最后通过实验验证了在大数据环境下动态变频遍历模型(Dynamic Frequency Conversion Traversal,DFCT) 对多源数据具有较高的更新效率。 相似文献
3.
4.
楼伟 《电脑编程技巧与维护》2015,(9)
图谱计算是相似预报中解决天气现象关联关系、不同时刻相似匹配的核心问题.其复杂的搜索分析和拟合比对任务产生巨大工作量,成为发展相似预报的计算瓶颈.利用GraphChi大数据技术,将大量集中式工作分散到多台电脑上完成,用海量硬盘替代集中式内存的访存瓶颈,为相似预报中图谱计算提供了新的解决方案. 相似文献
5.
众源轨迹的泛在、实时特性,使其成为道路信息快速获取与更新的重要途径.针对矢量道路数据的变化检测与更新问题,提出了一种基于车辆轨迹大数据的道路网快速变化发现与更新方法.1)以道路弧段为基本单元构建缓冲区,根据道路变化信息类型及表现形式,运用轨迹运动几何信息(方向、转角)与交通语义信息(速度、流量),对道路变化信息进行检测、分类,确定道路变化类型;2)将道路变化类型推断与增量信息提取相结合,分别运用Delaunay三角网、交通流时间序列分析提取增量信息;3)根据变化类型进行增量信息融合.运用深圳市出租车GPS轨迹数据进行实验分析,结果表明:该方法相比常规方法能正确判断道路变化类型、区分真实变化与语义变化,增量信息精度提高约18%,且适于图层级的批处理快速更新. 相似文献
6.
7.
《计算机应用与软件》2018,(4)
为了实现本体概念的自动更新,减少对领域专家的过多依赖,给出一种基于语义相似度的本体概念更新方法 SSOCUM(Semantic Similarity-based Ontology Concept Update Method)。实现一种改进的基于Word Net的相似度算法,该算法在计算路径长度的基础上,综合考虑了概念的节点深度以及信息量对相似度的影响。为了弥补基于Word Net的相似度算法没有考虑概念属性所携带的语义信息的不足,加入属性相似度对其进行调整。通过实验对比,验证了改进算法的计算结果与标准数据集之间的皮尔森系数高于传统算法,计算结果更接近于人的主观判断。采用构建好的煤矿领域通风系统本体对SSOCUM算法进行实验分析。结果表明,SSOCUM算法有助于本体新概念的自动添加,并具有一定的准确性和有效性。 相似文献
8.
移动互联以及物联网产生的海量的数据,被称为大数据,大数据通过收集、存储、计算可以分析出重要的一些数据,从海量的数据中挖掘出有用的数据是大数据计算的根本目的.本文介绍了大数据计算的几个关键技术. 相似文献
9.
SimRank 算法利用网络结构来评估网络中任意2点的相似性,它被广泛应用于社交网络和链接预测等诸多领域中.近年来,随着大数据技术的发展,SimRank 算法处理的数据不断增大,人们利用MapReduce 等分布式计算模型设计实现分布式的大规模 SimRank 算法来适应大数据处理的需求.但是,由于 SimRank 算法包含开销较大的迭代过程,每次迭代之后都需要一个全局同步,且每次迭代的计算复杂度高、通信量大,SimRank 算法不能在分布式环境下高效地实现.1)提出 Asyn‐SimRank 算法,该算法采用迭代‐累积的方式完成迭代计算,异步执行 SimRank 的核心迭代过程,避免了大规模分布式计算中的大量同步开销,同时有效降低计算量并减少通信开销;2)提出关键点优先调度计算,提升了 Asyn‐SimRank 算法的全局收敛速度;3)证明了 Asyn‐SimRank 算法的正确性和收敛性以及关键点优先调度计算的有效性;4)支持异步迭代的分布式框架 Maiter 上实现了 Asyn‐SimRank 算法.实验结果显示,相比较于 Hadoop ,Spark 上实现的 SimRank 算法和 Delta‐SimRank 算法,Asyn‐SimRank 算法大大提升了算法的计算效率,加速了算法收敛. 相似文献
10.
11.
针对在数据服务中舆情去重不可避免且缺乏理论指导的问题,通过研究SimHash、MinHash、Jaccard、Cosine Similarty经典去重算法,以及常见的分词和特征选择算法,以寻求表现优异的算法搭配,并对传统Jaccard和SimHash进行了改进分别产生新算法:基于短文章的Jaccard和基于Cosine Distance的SimHash.针对比较对象众多实验效率低下的问题,提出了先纵向比较筛选出优势算法,然后横向比较获得最佳搭配,最后综合比较的策略,并结合3000舆情样本实验证明:改进的SimHash比传统的SimHash具有更高的精度和召回率;改进的Jaccard较传统Jaccard,召回率提高了17%,效率提高了50%;MinHash+结巴全模式分词和Jaccard+IKAnalyzer智能分词在保持精度高于96%的条件下,都具有75%以上的高召回率,且稳定性很好.其中MinHash去重效果略低于Jaccard,但特征比较时间较短,综合表现最好. 相似文献
12.
在大数据治理应用中,数据分析是必不可少的一环,且具有耗时长、计算资源需求大的特点,因此,优化其执行效率至关重要.早期由于数据规模不大,数据分析师可以利用传统的矩阵计算工具执行分析算法,然而随着数据量的爆炸式增长,诸如MATLAB等传统工具已无法满足应用需求的执行效率,进而涌现出了一批面向大数据分析的分布式矩阵计算系统.从技术、系统等角度综述了分布式矩阵计算系统的研究进展.首先,从发展成熟的数据管理领域的视角出发,剖析分布式矩阵计算系统在编程接口、编译优化、执行引擎、数据存储这4个层面面临的挑战;其次,分别就这4个层面展开,探讨、总结相关技术;最后,总体分析了典型的分布式矩阵计算系统,并展望了未来研究的发展方向. 相似文献
13.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。 相似文献
14.
全局同步计算模型简单易用,但是路障同步导致收敛速度变慢。以顶点为中心的异步迭代虽然提高了收敛速度,但在计算节点之间需要频繁发送信息。在Spark环境下提出一种基于子图的异步迭代更新方法。在子图之间建立异步消息通信连接后,子图能以异步方式发送数据块;通过多线程同步避免数据读写冲突,保证异步更新时顶点状态的一致性。在大规模样本数据集上分别从收敛结果、收敛速度和通信代价验证方法有效性。实验结果表明,与全局同步迭代相比,该方法有效提高了计算收敛速度。与顶点为中心的异步更新方式相比,该方法在收敛时间上略有增长,但是显著降低了通信开销。 相似文献
15.
Cloud computing provides the capability to connect resource-constrained clients with a centralized and shared pool of resources, such as computational power and storage on demand. Large matrix determinant computation is almost ubiquitous in computer science and requires largescale data computation. Currently, techniques for securely outsourcing matrix determinant computations to untrusted servers are of utmost importance, and they have practical value as well as theoretical significance for the scientific community. In this study, we propose a secure outsourcing method for large matrix determinant computation. We employ some transformations for privacy protection based on the original matrix, including permutation and mix-row/mixcolumn operations, before sending the target matrix to the cloud. The results returned from the cloud need to be decrypted and verified to obtain the correct determinant. In comparison with previously proposed algorithms, our new algorithm achieves a higher security levelwith greater cloud efficiency. The experimental results demonstrate the efficiency and effectiveness of our algorithm. 相似文献
16.
图上的随机游走概率计算是传统图论与现代数据挖掘领域普遍关注的问题之一. 现有工作普遍关注静态图上的随机游走概率计算,却鲜少关注与实际应用场景更贴合的权重动态图. 针对动态有权图上的随机游走概率计算问题,提出了一种基于硬币翻转采样的随机游走概率计算方法. 相比于传统的基于权重采样的随机游走概率计算方法,所提方法可以在保证随机游走概率计算结果无偏的前提下,同时做到近似最优的随机游走概率计算复杂度和最优的采样结构更新复杂度. 作为对比,现有方法或具有较大的计算时间复杂度,或依赖于复杂的索引结构而难以在动态图上即时更新. 对所提方法做出了详细的理论分析,并在真实图数据集上进行模拟实验,实验结果证实了所提方法的有效性.
相似文献17.
Xingyue CHEN Tao SHANG Feng ZHANG Jianwei LIU Zhenyu GUAN 《Frontiers of Computer Science》2020,14(1):219-229
When users store data in big data platforms,the integrity of outsourced data is a major concern for data owners due to the lack of direct control over the data.However,the existing remote data auditing schemes for big data platforms are only applicable to static data.In order to verify the integrity of dynamic data in a Hadoop big data platform,we presents a dynamic auditing scheme meeting the special requirement of Hadoop.Concretely,a new data structure,namely Data Block Index Table,is designed to support dynamic data operations on HDFS(Hadoop distributed file system),including appending,inserting,deleting,and modifying.Then combined with the MapReduce framework,a dynamic auditing algorithm is designed to audit the data on HDFS concurrently.Analysis shows that the proposed scheme is secure enough to resist forge attack,replace attack and replay attack on big data platform.It is also efficient in both computation and communication. 相似文献
18.
大数据是一种蕴含大量信息、具有极高价值的数据集合.为了避免大数据挖掘泄露用户的隐私,必须要对大数据进行必要的保护.由于大数据具有总量庞大、结构复杂、处理迅速等特点,传统的保护数据隐私的技术很多都不再适用.从密码学的角度,综述了近年来提出的、适用于大数据的隐私保护技术的研究进展.针对大数据的存储、搜索和计算这3个重要方面,分别阐述了大数据隐私保护的研究背景和主要研究方向,并具体介绍了相关技术的最新研究进展.最后指出未来大数据隐私保护研究的一些重要方向. 相似文献
19.
国民经济非垂直管理行业或领域建立大数据中心,需要配备能大规模云同步归集行业数据的软件系统,“行业数据云通用的同步枢纽与大数据联合体平台”(GSMS)就是为此而研制的。GSMS主要用于通过互联网大规模同步采集各地异构自治系统(或设备)的业务或事实数据并加以开发应用。在实际应用中,当众多GSMS客户线程各自并发地向GSMS数据中心同步数据时,所产生的大规模数据同步会话将汇聚在GSMS服务端,从而形成处理瓶颈。此外,同步会话全程串行的锁步机制也会制约大规模数据同步归集的性能。为此,提出并实现了一种异步并行化改进GSMS系统方案:将服务端高时耗计算环节从数据同步串行锁步过程中分离出来,为其引入基于多道消息队列中间件的异步并行处理机制,并提供相应的松弛同步事务保障措施。实践表明,正确地实现这种异步并行处理能有效提升服务端处理速度并满足同步系统的可靠性和一致性要求。 相似文献