首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
针对已有的社团发现算法存在时间复杂度较高、运行过程会产生大量重复团等问题,引入二叉树的存储结构、权重排序、深度优先遍历的概念,与Spark基于内存计算的特点相结合,提出一种改进的并行化S-T-CS算法。通过搭建Spark大数据平台实现该算法,并与传统团搜索CS算法和基于Hadoop的MP-T-CS算法进行性能对比。实验结果表明,S-T-CS算法解决了生成结果冗余的问题,降低了时间代价,提升了社团发现算法的运行速度和对海量数据的处理能力。  相似文献   

2.
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题,提出了基于数据仓库的海量搜索日志分析系统架构.利用Hadoop分布式文件系统(HDFS)存储海量搜索日志,并对搜索日志进行清洗处理,采用impala对数据进行高速的处理,将处理后的统计结果导入到数据仓库中,使用Penta-hoBI对数据进行多维分析和统计报表.获取了关键词分析、查询频率、热词排行、查询词和时间分布、网站排名、用户统计等6个分析主题.分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义.  相似文献   

3.
在分布式数据传输中,UDP协议由于实现机制简单、传输效率高,被大量应用系统所采用。为了数据分析和处理的需要,常常要对录取得到的海量UDP报文数据进行搜索,以得到符合要求的报文。针对以上需求,文章在UDP报文数据的搜索中引入倒排索引机制。从存储、生成两个方面对UDP报文倒排索引进行了详细论述,并介绍了利用UDP报文倒排索引的报文搜索方法。  相似文献   

4.
基于存储过程的高性能数据库应用模型研究   总被引:4,自引:0,他引:4  
基于C/S及B/S的传统数据库应用模型在处理海量数据时,系统通常会对许多无用数据进行运算,增加了运算的时间复杂度和空间复杂度.针对这个问题,提出了一种基于存储过程的高性能数据库应用模型,仅仅对有效数据进行运算,减少了对大量无用数据的运算,提高了SQL的运行速度,同时也降低了网络数据流量.实践结果表明,该存储过程数据库模型比传统数据库处理模型的处理效率提高了n倍.  相似文献   

5.
很多大企业采用Hadoop分布式文件系统来存储海量数据,而传统的病毒扫描主要针对单机系统环境。研究如何并行化病毒扫描中的核心特征匹配算法来处理分布式海量数据。在Hadoop平台下,基于MapReduce并行编程模型来实现大数据高效的病毒扫描,特别是针对Hadoop处理海量小文件效率低的问题,通过将小文件合并,再利用索引来提高海量小文件的处理效率。实验结果表明,提出的并行特征匹配算法可以显著降低处理时间,适用于大数据的病毒扫描。  相似文献   

6.
根据电能质量系统中监测数据海量化的趋势,提出了一种基于部分存储和选择性加载的数据处理算法,彻底解决了现有数据处理算法中重复排序和多余处理的问题。在计算日指标时,根据存储率存储部分日排序数据;在计算周(月、季、年)指标时,利用多路归并算法将存储的部分日排序数据合并,计算出临时95概率大值(CP95);根据临时CP95确定需要重载的日数据,对部分存储的日数据和重载数据重新排序以计算稳态指标。部分存储的日排序数据可以重复利用,有效解决了传统处理方案中的重复排序问题;排序过程中只需读取部分日排序数据和少量重载数据,有效解决了传统处理方案中冗余处理问题。与传统的数据处理方法做测试对比,结果表明:日采样数据较小时,性能提升3倍以上;日采样数据超过2880时,性能提升15倍以上。数据量越大,性能提升越明显。所提方案已在山西、河北等监测系统中成功应用,实践证明所提方案正确、有效。  相似文献   

7.
无向图最大团求解是一个著名的NP-完全问题,解决该问题的经典算法基本上都采用完全精确搜索策略。鉴于NP-完全问题本身所固有的复杂性,这些算法或许仅适用于某些特殊的小规模图,对于具有大规模顶点和边的复杂图还是显得无力,难以适用。针对完全精确搜索策略下的无向图最大团求解算法的大部分时间都用于对图进行额外而无效的查找的问题,采用分划递归技术将图划分为邻接子图和悬挂子图,然后对邻接子图进行递归求解,而对悬挂子图则通过设置搜索范围控制函数进行局部有限搜索。在DIMACS数据集上将所提算法与当前主要的最大团求解算法进行对比实验,结果表明,文中提出的局部有限搜索求解策略能在75%的基准数据上获得最大团,剩下不能得到最大团的数据实际上也可以获得接近于最大团的近似最大团,但算法的平均求解时间仅为目前最大团精确求解算法的20%左右。因此,在很多最大团非精确要求的场景中,所提算法具有极高的应用价值。  相似文献   

8.
随着企业数据信息量的不断地增加,海量数据信息的存储和不断备份给企业的存储空间带来了巨大的存储压力。该文深入研究重复数据删除技术,并针对目前重复数据删除技术中存在的数据丢失及性能低等问题以及BLOOM FILTER算法流程和重复数据删除策略的分析和研究,提出了一种重复数据删除技术优化模型。测试分析表明,该优化模型实现了高效和安全的重复数据删除功能,节省了企业内部存储空问的存储成本开销。  相似文献   

9.
唐胜  胡洁  赵京虎 《计算机科学》2012,39(105):318-321,327
提出了一种基于海量数据挖掘的设备状态预警算法。工业设备有大量的历史运行数据,并且实时采样的数据维度多,数据量大,算法首先对设备良好运行状态下的大量历史数据进行自适应聚类分析,建立设备的数学模型,并根据此类模型和设备运行的实时状态值对设备的运行状态进行预测。该算法充分考虑工业应用的实际需求,自动确定聚类的数目,解决了传统聚类算法处理海量历史数据时的开销大和效率低的问题,并且保证了回归预测过程的高效性。仿真实验表明,该算法能够有效地处理海量数据,并且能够实时得到预测值,实现对设备的实时监控预测。  相似文献   

10.
为解决传统数据挖掘算法在大量数据处理时面临的内存占用、计算性能等方面的问题,基于Hadoop平台,应用HBase文件存储系统对海量数据分布式存储以及Map Reduce框架进行分布式计算,实现Apriori经典数据挖掘算法。通过对已实现的Apriori算法进行优化,引入FIS-IS算法思想,从数据库扫描次数和容量消减方向进行改进。提出针对数据本身进行频繁预选项生成方法与对于频繁预选项剪枝步骤进行分组检索的优化方法。实验结果验证了改进算法对算法运行具有良好的优化效果。  相似文献   

11.
第3级存储器的联机使用为海量数据管理提供了一种廉价可行的方案.为了使数据库管理系统能够联机使用第3级存储设备,第3级存储设备上的关系操作算法,特别是连接操作算法是必须解决的关键问题之一.提出一种高效的连接算法.实验结果表明,该算法无论在性能方面还是在扩展性方面都优于以往算法,极大地减少了I/O代价.当数据量较大时,算法的性能不低于基于磁盘的连接算法.结果表明,第3级存储器可以像磁盘一样在海量数据库系统中联机使用,解决海量数据库存储和联机查询等关键问题.  相似文献   

12.
针对动态仓储环境下多机器人运动过程中出现的拥塞死锁问题,利用路径长度、转弯数、路径惩罚函数建立小车单任务耗时模型。模型引入阻塞惩罚函数,移除可能发生阻塞的路径增加罚值。同时针对传统遗传算法路径规划操作过程中路径交叉变异导致路径中断不可用的情况,设计重复点交叉算子,在变异操作后检查路径合法性,使算法都是在可行的解空间上进行搜索。仿真实验表明,算法能指导机器人获得动态环境下的最优路径,同时算法收敛速度大大提高。  相似文献   

13.
针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,优化样本数据集中小文件的写入、读取、添加、删除和替换策略。该方案根据硬件配置测得大、小文件的分界点,通过变尺度堆栈算法按样本数据集的目录结构将小文件合并存储至HDFS;结合行键优化策略将文件索引存储在HBase数据表中;搭建基于Ehcache缓存框架的预取机制。实验结果表明,该方案降低了主节点的内存消耗,提高了文件的读取效率,实现了对海量样本数据集中小文件的高效存取。  相似文献   

14.
针对气象水文应用中,大量常规观探测报文批量访问出现的低效问题,研究文件存储特性,定量分析了目录级数和文件数量对访问性能的影响,发现文件数相对于文件大小,对于系统的访问效率影响更大,当单个目录下文件数目过大时,文件存取延时较大,严重影响用户体验与服务性能。根据NTFS下的实验数据,设计了一种高效的目录组织方法,优化用户态文件存储管理算法。实验表明,优化后的文件目录结构和组织形式,能极大地提高批量文件的读取效率,降低20%—73%的访问延时,改善网络环境下的大规模文件接收处理效率。  相似文献   

15.
国家电网公司信息化程度越来越高,单机运维审计系统产生的数据量日益增多,对海量数据高效率存储分析性能严重下降,系统稳定性降低。为满足国家电网当前对运维审计系统数据存储分析以及系统稳定性的需求,在Hadoop开源架构的基础上,本文提出基于Hadoop集群的海量数据分布式存储方法和基于Heartbeat的心跳检测技术,实现基于Hadoop的电力运维审计系统。〖JP2〗实验测试结果表明,基于Hadoop的电力运维审计系统相比单机系统可用性提高了8.42%,大大提升了存储分析海量数据的性能,具有系统工作稳定和服务不间断等优势。  相似文献   

16.
目前,基于排序的等价类生成算法存在以下不足:排序后仍需高达 O(|B| |U|)的时间复杂度重复进行 运算才求得等价类,为此,设计了一种新算法。新算法采用孩子兄弟表示法,将生成等价类的过程定义为一棵二 叉树,主要采取了边生成节点边访问,一旦求得某个等价类便释放相应分支节点空间的方法。其时间复杂度为 O(|C| |U|),空间复杂度为O(|U|),为求等价类提供了一个新的解决办法。  相似文献   

17.
如何将用户的海量数据以最小的耗时存储到数据中心,是提高云存储效益,解决其发展瓶颈所需考虑的关键问题本文首先证明了云存储环境下资源调度方案的存储最小耗时问题属于一个NPC问题,再针对现有算法对存储调度因素考虑不全面、调度结果易陷入局部最优等问题,提出了一种全新的资源调度算法,该算法首先利用三角模糊数层次分析法全面分析调度影响因素,得到存储节点的判断矩阵,用于构造后续的遗传算法目标函数,再将简单遗传算法从解的编码、交叉变异操作及致死染色体自我改善等角度进行创新,使其适用于云存储环境下的大规模资源调度,最后与OpenStack中的Cinder块存储算法及现有改进算法进行了分析比对,实验结果验证了本文所提算法的有效性,实现了更加高效的资源调度。  相似文献   

18.
纠删编码是一种通过产生数据冗余来提高P2P存储系统容错性和可用性的有效方法。对基于纠删编码的非结构化P2P存储系统来说,使用洪泛算法进行数据维护会在网络中产生大量冗余消息,系统效率低。本文提出一种使用二叉树来保存文件块的信息的算法。二叉树结构被建立以后,更新消息在二叉树中的节点间传播,不需要在网络中洪泛。分析表明,相较于洪泛算法,本算法有效减少了冗余的消息数量,提高了数据维护的效率,而付出的是极小的存储代价。  相似文献   

19.
Cloud computing infrastructure is a promising new technology and greatly accelerates the development of large scale data storage, processing and distribution. However, security and privacy become major concerns when data owners outsource their private data onto public cloud servers that are not within their trusted management domains. To avoid information leakage, sensitive data have to be encrypted before uploading onto the cloud servers, which makes it a big challenge to support efficient keyword-based queries and rank the matching results on the encrypted data. Most current works only consider single keyword queries without appropriate ranking schemes. In the current multi-keyword ranked search approach, the keyword dictionary is static and cannot be extended easily when the number of keywords increases. Furthermore, it does not take the user behavior and keyword access frequency into account. For the query matching result which contains a large number of documents, the out-of-order ranking problem may occur. This makes it hard for the data consumer to find the subset that is most likely satisfying its requirements. In this paper, we propose a flexible multi-keyword query scheme, called MKQE to address the aforementioned drawbacks. MKQE greatly reduces the maintenance overhead during the keyword dictionary expansion. It takes keyword weights and user access history into consideration when generating the query result. Therefore, the documents that have higher access frequencies and that match closer to the users’ access history get higher rankings in the matching result set. Our experiments show that MKQE presents superior performance over the current solutions.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号