首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
冯光璐  欧阳静  李然  倪凡  曾路 《信息技术》2024,(1):104-109+114
针对电网OA系统内存在大量的非结构化文档难以识别的问题,研究电网OA系统非结构化文档内容自动化识别技术。采用非直接转换方法,将非结构化数据先转换为采用XML文件承载的不完全结构化数据,利用SAX解析工具解析不完全结构化数据,采用Simhash算法对文本信息进行去重处理;采用TextRank算法提取文本内的关键词,根据关键词识别电网OA系统非结构化文档内容。测试结果显示,在海明距离与相似度阈值分别为10和70的条件下可获取较好的去重效果,关键词提取效果较好,具有推广价值。  相似文献   

2.
当前针对结构化的敏感数据识别方法已趋于完善,然而对于非结构化文档类的智能识别仍然处于研究阶段。基于此迫切需求,本文提出一种基于transformer的非结构化文档敏感数据识别方法,融合Word2vec词嵌入模型和transformer模型,通过自注意力机制有效获取上下文的语义关系,并利用并行计算实现快速高效的识别。最后对实验数据进行模拟和计算,得到了较高的识别准确率,证明了本算法的有效性。  相似文献   

3.
针对各种数据呈几何级数爆炸式增长促使数据存储容量面对巨大压力的问题,本研究致力于开发设计一种面向非结构化元数据的分布式分级存储管理系统。通过在Client端和Server端分别组织Java jar和逻辑节点实现非结构化元数据管理平台的功能调用,并采用Mongodb数据库构建了自研元数据管理组件的文档数据库。将策略配置存放在Client端的Zookeeper中,并在Server端中实现非结构化元数据的分级存储。通过性能测试结果显示:相比传统的LRU存储方式,采用高低层Server端服务器对非结构化元数据分级存储过程中,平均响应时间下降了45.2%和36.7%,字节命中率分别提升了3.0%和2.6%。因此,本研究提出的分布式分级存储原理可以提升非结构化元数据存储效率。  相似文献   

4.
<正>在文档体量剧增的背景下,本文从实际问题出发,基于File Net底层存储,结合统一的管控模块,构建上层应用系统。通过成熟稳定的架构,研发一套企业数字文档管理系统。实现勘探开发、生产、钻井、合同等各专业非结构化、半结构化文档的集中、统一管理。近年来,随着公司的发展,油气田勘探、开发业务量增加,勘探、开发生产、工程等各专业形成了大量信息,文档资料的数量在快速增长。业务流程交叉及复杂化、文档存储查询接口的不断新增,传统的数字文档的管理模式无法满足业务需求的增长。  相似文献   

5.
XML已成为表示结构化和半结构化数据的标准格式;DOM规范是应用程序和XML文档之间的桥梁,它提供了一种标准的方法来操作存储在XML文档中的信息。首先介绍W3C提出的DOM规范以及Delphi对该规范的三种实现方法,然后给出了在用Delphi开发的一个通用OLAP工具-KDOLAP中XML文档的处理方法。  相似文献   

6.
书面文档是非结构化信息的主要表现形式之一。本文提出了一种非结构化文档的互操作标准,并完成了其规范语言UOML(Unstructured Operation Markup Language)方案,定义了详尽的操作接口规范。操作接口基于XML表达,实现平台无关性。  相似文献   

7.
由于目前语音增强方法或算法难以对语音频谱在时频域上的结构化信息进行有效建模和利用。然而,深度学习中的RBM、DNN等模型擅长对数据中的结构化信息进行建模,而且具有从数据的低层结构化信息提取更高层的结构化信息的能力。基于分类深度神经网络的语音增强,该方法对于低信噪比非平稳语音增强可得到高可懂度的增强语音,但语音音质损失严重。基于DNN的最小均方误差回归拟合语音增强方案,该语音增强方案还说明大语音数据训练能保证DNN较充分学习到噪声语音谱和干净语音谱之间复杂的非线性关系。  相似文献   

8.
XML(Extensible Markup Language)可扩展标记语言,指的是用于标记电子文件并且可以使其具有结构性的标记语言,它的主要作用是标记数据和定义数据类型,是一种允许用户对自己的标记语言进行定义的语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML比其他格式数据要占用较多的空间,但XML对于初学者简单并且较易掌握和使用。XML是互联网环境中跨平台的、依赖于文本本身的技术,是当前处理结构化文档信息的有力工具。随着互联网的兴起,海量数据存储与处理是互联网公司必须面对的问题之一。因此,Hadoop受到Yahoo等主流IT公司的青睐。社交网络和Web2.0的兴起使得数据,尤其是非结构化数据呈现指数级增长,云计算和移动互联网的趋势更是加剧了这一增长势头,然而,传统的数据库却基本不太可能处理如此海量的非结构化数据,因此在大数据平台技术中,Hadoop成为处理海量数据的有力工具。  相似文献   

9.
云计算下非结构化大数据存储系统设计   总被引:1,自引:0,他引:1  
《现代电子技术》2018,(1):173-177
当前云计算下非结构化大数据存储系统设计方法是通过使用分布式数据库存储跨区域的云计算数据和全局数据存储管理目录实现的,运行系统复杂,成本高昂。为此,提出基于HBase的云计算下非结构化大数据存储系统设计方法,首先对云计算下非结构化大数据进行分析,完成云计算下非结构化大数据提取,为云计算下非结构化大数据存储系统框架设计创造条件,并介绍HBase的特点,得到基于HBase非结构化大数据存储系统架构及运行流程,然后进行云计算下非结构化大数据存储结构模型总体设计及非结构化大数据分布式结构分析,采用负载均衡控制方法进行云计算下非结构化大数据存储系统冗余数据特征压缩及信息存储优化算法设计,完成云计算下非结构化大数据存储系统设计。通过仿真实验证明,所提方法能够有效降低云计算下非结构化大数据存储花费的时间,保证存储的数据可用、不丢失,方便云计算下非结构化大数据的使用,具有较强的使用价值。  相似文献   

10.
《电子测试》2002,(1):105-105
面对非结构化数据处理量的大量增加,用户迫切需要既能高效处理非结构化数据,又具有强大的全文检索功能的数据库产品。  相似文献   

11.
非结构化数据的ETL设计   总被引:1,自引:0,他引:1  
为了实现非结构化数据的ETL处理,分析了数据整合的发展现状和业务需求,描述了目前国际流行的公共仓库元模型(CWM)以及在ETL实现中的作用,详细分析了结构化数据和非结构化数据的不同特点。针对两种数据的差异,提出了解决非结构化数据的属性提取和数据打包的方法,为非结构化数据形成元数据奠定了基础,从而实现了非结构化数据的ETL设计,设计完全满足标准的数据整合要求。  相似文献   

12.
为提升非结构化数据处理过程中数据库主机的存储能力,设计了面向数据库查询制度的非结构化数据融合存储系统。根据非结构化存储框架连接形式,确定融合控制电路对于数据存储载体的约束作用能力,完成数据融合存储系统的关联硬件执行环境搭建。定义查询指令所属类型,通过优化非结构化数据目标的方式,得到最终的数据融合代价估算结果,完善面向数据库查询的信息参量存储策略。联合相关硬件执行设备,实现非结构化数据融合存储系统设计。实验结果表明,与传统I/O模拟器存储网络相比,在处理非结构化数据时,融合存储系统的数据库主机明显具备更强的信息存储能力,与之相关的数据信息连接并发个数值也相对更大。  相似文献   

13.
鲁义轩 《通信世界》2013,(27):46-46
市场调研公司Gartner给出的最新统计称,企业及互联网产生的数据以每年50%的速率在增长,新增数据中多数为非结构化数据,想要从这些数量庞大且杂乱无章的非结构化数据中提取有价值的信息,存储设备是关键,这也是包括中兴通讯在内的巨头设备商面向政企行业重点打造的产品和服务。  相似文献   

14.
一、政府资源领域知识库产生的背景   人类已从简单的消息传递,上升到了信息处理.上世纪90年代,Karl-Erik sveiby博士提出了知识管理的概念,知识作为一种资源和资产得到越来越多的重视.人类的信息分为结构化信息和非结构化信息两大类:结构化信息是指、经过人工标注、整理、加工过的按特定格式排列的信息;非结构化信息是指存储格式各异,没有经过人工加工,整理过的信息.在政府信息当中,文件、报告、通知、函件、法规等大量的非结构化信息占据主导地位.Gartner的一项调查显示,我们所存储的数据中,有85%以上是非结构化信息;每过三个月,我们周围的非结构化信息就会增加一倍.非结构化信息构成了政府知识的主体,因此,政府领域知识管理的核心问题就是对非结构化信息的处理. ……  相似文献   

15.
随着移动互联网的蓬勃发展和移动APP的广泛应用,用户越来越方便的产生更多数据.近年来中国存储软件市场正处于高速增长阶段,国内云存储市场规模已由2009年的605万美元快速增长至2014年的2.1亿美元.在飞速增长的数据中,以视频、音频、照片、文档为代表的非结构化数据由于其表达上的复杂性导致文件尺寸通常比较大,在总数据量中占90%以上.相比结构化数据使用关系型数据库这样的解决方案,非结构化数据的管理具有更多的复杂度和难点,不仅仅要解决存储的问题,还要解决数据处理和数据分发的问题.  相似文献   

16.
如今的数据,除了具有一定模式的规范数据外,还大量存在着非规范数据,这些数据都是非结构化的数据。另外还有一种介于结构化数据和非结构化数据之间的,即半结构化数据。那么,这些不同结构的数据如何高效存储、友好查询,满足用户的多方面需求呢?  相似文献   

17.
本文综合利用超文本的各种多元化信息规则,提出一种基于多元信息加权协调的超文本分类算法。该算法在分类时,通过对抽取到的数据集超文本文档中的超文本信息进行加权处理,更好的综合协调地利用了超文本的多元结构化信息。通过三个数据集的综合实验,结果表明,相较于单独利用某种超文本结构信息进行分类的方法,基于多元信息加权协调超文本算法具有较好的性能。  相似文献   

18.
以非结构化数据高精度提取为目的,利用改进K-均值算法聚类云数据库非结构化数据,对分类后非结构化数据进行归一化预处理;通过基于自然语言语义的数据库目标检索模型,对预处理后的多种云数据库非结构化数据,按照用户需求实时提取。经测试:所提方法在不同数据集中,对多种类型的云数据库非结构化数据提取结果存在可信度,最大偏差为1个,偏差极小,在可接受范围内,可高精度提取云数据库非结构化数据。  相似文献   

19.
随着移动互联网云计算、大数据的快速发展,以图片、视频等组成的数据存储急剧增加,目前已有存储方式无法满足系统需要,而No SQL分布式大数据存储技术因其具有可扩展、快速读取、海量处理等特点,其在云计算领域如雨后春笋般被广泛应用。采用基于Hadoop平台和No SQL的Mongo DB数据库技术设计非结构化数据云存储架构,证明云存储的非结构化数据存储技术可缓解当前非结构化数据存储面临的难题,提升非结构化数据存储服务质量。  相似文献   

20.
为了加快非结构化电网数据存储的译码速率,从而促进电网主机分布式存储能力的提升,提出智能电网海量非结构化数据分布式存储方法。定义MongoDB数据格式的方法,对电网信息实施复制处理,联合分布式存储架构完成智能电网海量非结构化数据库搭建。在此基础上,分析电网数据的特性能力,通过信息增删排查的方式,确定最终的分布式查询语句,搭建智能电网海量非结构化数据分布式存储模型,实现数据的分布式存储。与局部修复型存储编码方法相比,在分布式存储模型作用下,电网主机的存储译码速率最大值能够达到54.5 MB/s,可在实现非结构化电网数据快速转码的同时,提升电网主机分布式存储能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号