首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 33 毫秒
1.
随着智能时代和大数据时代的到来,各种复杂异构数据不断涌现,成为数据驱动的人工智能方法、机器学习模型的基础。复杂异构数据的表征直接关系着后续模型的学习性能,因此如何有效地表征复杂异构数据成为机器学习的一个重要研究领域。文中首先介绍了数据表征的多种类型,并提出了现有数据表征方法面临的挑战;其次,根据数据类型将数据划分成单一类型数据和复合类型数据,针对单一类型数据,分别介绍了4种典型数据的表征学习发展现状和代表算法,包含离散数据、网络数据、文本数据和图像数据;然后,详细介绍了4种由多个单一数据或数据源复合而成的复杂数据,包含了离散特征与连续特征混合的结构化数据、属性数据与复杂网络复合的属性网络数据、来自不同领域的跨领域数据和由多种数据类型复合的多模态数据,分别介绍了基于上述复杂数据的表征学习现状以及最新的表征学习模型;最后,对复杂异构数据表征学习的发展趋势进行了探讨。  相似文献   

2.
高云君  葛丛丛  郭宇翔  陈璐 《软件学报》2023,34(5):2365-2391
目前,各个国家和地区均已将大数据视为重要的战略资源.然而,大数据时代普遍存在数据流通困难、数据监管不足等问题,致使数据孤岛现象严重,数据质量低下,数据要素潜能难以释放.这驱使研究人员探索数据集成技术,以打破数据壁垒、实现信息共享、提升数据质量,进而激活数据要素潜能.关系型数据和知识图谱作为两种至关重要的数据组织与存储形式,在现实生活中应用广泛.为此,聚焦关系型数据和知识图谱,归纳总结并分析实体解析、数据融合、数据清洗3方面的数据集成关键技术,最后展望未来研究方向与趋势.  相似文献   

3.
分布式海量矢量地理数据共享研究   总被引:16,自引:0,他引:16       下载免费PDF全文
地理空间数据的应用应用范围迅速扩大,实现空间数据的共享,充分有效利用已有数据,可节约用户成本,栅格数据的共享方式在多媒体领域有较多研究,而矢量数据研究得不多,本文讨论了分布式海量矢量地理空间数据共享的几个问题-海量空间数据的管理,传输,可视化及空间数据共享的安全问题。  相似文献   

4.
电力企业业务数据存在人为干预多、数据口径不一致、缺乏管理规范等现象,造成数据统计困难、及时性低、数据失真等问题,严重影响数据的深化应用。针对该问题,本文提出一种基于数据全生命周期管理的电网企业数据治理方案,通过构建公共数据云,开展数据资源池建设,部署结构化数据中心、非结构化数据中心及海量准实时数据中心等三大公共数据资源管理平台,定义完整的电网数据管控流程和数据责任机制,对数据进行从数据获取到数据加工、数据分发到数据使用的数据全生命周期管理,从各环节把控数据质量,辅以数据质量评估,提升电网数据的及时性、准确性及完整性。经过在输电、配电、电网调度、电网规划等多方面应用实践,该方案实现了多口径业务数据的质量管控及集中应用,提升了数据质量及综合治理水平,实现了专业数据资产全面共享。  相似文献   

5.
各企业在进行数据共享之前,首要考虑的是数据模型的数据映射关系,然而数据模型在不断的更替与升级,给数据集成带来了很大困难。文中设计了一种对数据源结构进行统一描述的数据字典元模型,利用数据元来规范数据项,将编辑距离算法思想应用其中,实现数据项与数据元字典中数据元的相似度匹配。应用语义树的表示方法来描述数据元结构,利用语义相似度算法进行数据元间的相似性、一致性检查,寻找数据元间的关联关系,间接地定位数据项间的语义关系,为数据映射奠定良好基础。以中石化标准数据元规范油田企业搜索引擎数据项,确保研究的实用价值。  相似文献   

6.
一个基于XML数据仓库系统的设计与实现   总被引:2,自引:0,他引:2  
黄土高原数据仓库系统以分布式数据仓库为核心,包含多个异质数据源。系统采用中间件技术不仅提供多层次资源查询服务,并且还使用数据挖掘技术和信息检索技术对资源数据进行深加工,能够主动地为用户提供黄土高原生态环境咨询、评测、预测与决策支持服务。论文重点介绍了一种基于XML的统一模式查询语言———XUSQL,用以解决多数据源中多模式数据融合问题。XUSQL使得在数据仓库中的查询与数据源模式无关,把数据源和数据仓库隔离开,从而有利于构造分布式数据仓库,便于异质数据源之间数据融合以及数据源本身的结构调整。  相似文献   

7.
为了使网络大数据应用的范围更广,更大程度地提高网络数据存储与管理精度,减少网络数据处理与控制的时间,需要对网络大数据进行研究。当前的网络大数据研究方法多是采用Hadoop基础架构对网络大数据进行研究,在数据存储中没有设定具体的安全存储指标,无法得到数据安全存储指标权重,存在数据存储安全性能低,网络大数据研究精度偏差大等问题。为此,提出一种基于云计算和物联网的网络大数据研究方法。该方法首先利用分级网络编码对网络数据进行传输,以传输的数据为基础,采用CRC算法实现网络数据的计算,然后依据分组存储的方式将数据进行存储,最后利用分层逆序叠加定位法对网络数据进行高精度查询,由此完成对网络大数据的研究。实验结果表明,所提方法可以全面具体地对网络大数据进行研究,提高了数据处理精度和网络数据计算速度,增加了网络数据存储空间容量和查询效率,减少了网络数据运行时的丢失率,扩展了网络数据的运作范围,为后续网络大数据的研究提供了强有力的依据。  相似文献   

8.
科学数据出版现状及其体系框架   总被引:3,自引:0,他引:3  
科学数据出版是深化数据共享的重要手段,能够激励数据生产者发布和共享数据,又能保护数据的知识产权。回顾了国内外科学数据出版现状,从数据中心和传统出版系统两个角度,提出和完善了科学数据出版体系架构。提出数据出版涉及数据提交、同行审议、数据发布和永久存储、数据引用和影响评价5个基本环节,应由出版系统、数据中心和第三方数据评价机构协同实施。重点讨论了科学数据出版面临的关键问题:数据授权、数字资源唯一标识符、数据集成和数据稿源问题。倡议建立我国的科学数据出版体系,科学数据中心在开展数据收集和共享的同时,加强与学术期刊的合作,成为数据出版的永久存储机构;学术期刊积极开展机制创新,推动学术论文相关数据的公开发布;积极开展数据知识产权保护,倡导对科学数据的引用;加强科学数据的影响评价研究,让数据成果成为普遍认同的科研产出成果,激励科学家主动参与科学数据共享。  相似文献   

9.
[目的]基于现有的业务信息系统数据,建立医院数据统一应用平台,提升业务数据的服务与再利用能力.[方法]通过建立医院数据统一应用平台改善业务系统数据获取能力、实现数据集中统一存储、提升医院数据综合应用利用与服务能力.[结果]通过门诊实时流量监控数据展示与医院综合运营数据展示作为医院数据统一应用平台的示范应用,建立医院数据统一应用的示范原型,实现了医院数据统一应用的综合展示、数据准实时监控的效果.[讨论]数据统一应用平台的建设过程涉及多个业务系统数据的整合,解决好数据一致性、海量数据处理、如何规划好数据统一应用主题的问题是建设过程中的关键性问题.  相似文献   

10.
当前数据采集器在数据传输过程中,存在数据传输效率低,数据安全性得不到保障等问题。现在针对这些问题,设计了一种便携式数据采集器的数据传输控制系统。数据传输控制系统通过FPGA转换器接口对数据进行采集,将采集到的数据除杂并存储在DDR2 SDRAM中,然后将这些数据应有核心处理的FIFO芯片进行处理,保障数据传输过程中的数据传输效率。对系统的数据传输效率与丢包率进行实验,实验结果表明,便携式数据采集器的数据传输控制系统有效减小数据丢包率,对于数据攻击的控制准确度达到98.92%。  相似文献   

11.
在大数据时代下,海量数据之间的共享是充分挖掘数据价值的前提.对涉及用户隐私的敏感数据,需要对其共享过程特别关注,而传统的数据共享方式存在数据流向不明确、难以追责等缺陷.针对这些问题,基于区块链提出了一种支持监管的敏感数据可控共享方案.通过使用动态累加器技术实现敏感数据的访问控制,数据拥有方可以灵活地授予或者撤销其他参与方对数据的访问权限,实现数据拥有方对数据的可控性.设置监管方对数据请求过程进行审核,监管方将为通过审核的数据请求方颁发监管凭证,只有拥有监管凭证且获得数据拥有方授权的数据请求方才能获得数据.为保护数据请求方的隐私,通过强指定验证者签名技术,使无关第三方无法获得数据请求方的身份信息.使用区块链技术记录数据的请求和响应情况,该记录只有监管方可以读取,从而实现了监管方对数据共享全流程的可监管性.安全性分析表明,方案满足数据请求方隐私性、数据拥有方可控性、可监管性,仿真实验验证了方案的可行性.  相似文献   

12.
详细介绍了“黑河综合遥感联合试验”(Watershed Allied Telemetry Experimental Research,WATER)的地面观测数据(气象水文和涡动相关数据除外)的数据质量控制和处理过程。从观测规范的制定和执行、数据处理和规范化、数据文件命名规范化、数据质量评价等方面进行详细阐述。不仅为数据用户提供数据质量参考信息,也为以后类似试验的开展提供一些数据质量控制和处理的借鉴。通过数据评价可以看出WATER试验的地面观测数据总体上具有较高的数据质量,这些质量控制措施为最后获取高质量的试验数据提供了重要的保证。利用这一套多尺度、标准化的高质量综合数据集开展大量数据分析和应用研究是下一步工作的重点。  相似文献   

13.
随着大数据时代的到来,对大数据的处理变得越来越重要。本文对如何处理大数据进行了分析,研究了大数据处理的相关技术,包括数据存储架构、数据结构处理、极限存储处理等方面。最后,对大数据的未来发展进行了展望。  相似文献   

14.
大数据分析与高速数据更新   总被引:1,自引:0,他引:1  
大数据对于数据管理系统平台的主要挑战可以归纳为volume(数据量大)、velocity(数据的产生、获取和更新速度快)和variety(数据种类繁多)3个方面.针对大数据分析系统,尝试解读velocity的重要性和探讨如何应对velocity的挑战.首先比较事物处理、数据流、与数据分析系统对velocity的不同要求.然后从数据更新与大数据分析系统相互关系的角度出发,讨论两项近期的研究工作:1)MaSM,在数据仓库系统中支持在线数据更新;2)LogKV,在日志处理系统中支持高速流入的日志数据和高效的基于时间窗口的连接操作.通过分析比较发现,存储数据更新只是最基本的要求,更重要的是应该把大数据的从更新到分析作为数据的整个生命周期,进行综合考虑和优化,根据大数据分析的特点,优化高速数据更新的数据组织和数据分布方式,从而保证甚至提高数据分析运算的效率.  相似文献   

15.
目前常规的多源异构数据治理方法主要通过对数据属性进行判断,从而实现分区域数据清洗,由于缺乏对非线性数据的分析,导致治理性能不佳;对此,提出基于云数据中心的多源异构数据治理技术;采用关系型数据库中的ETL功能对数据进行清洗,对数据转换模式以及数据清洗规则进行定义;引入互信息系数对数据相关程度进行判定,并进行非线性数据相关性分析;以云数据中心作为载体,对多源异构数据治理体系进行构建;在实验中,对提出的数据治理技术进行了治理性能的检验;最终的实验结果表明,提出的数据治理技术具备较高的查准率,对云数据中心多源异构数据具备较为理想的数据治理效果。  相似文献   

16.
数据仓库/数据集市体系结构的改进   总被引:2,自引:0,他引:2  
本文提出了一种新的建立数据集市/数据仓库体系结构的方法。它使用同一数据加载机制同时向各数据集市和中心数据仓库加载数据,将当前数据和轻度综合数据加我到数据集市,将历史数据和共享数据加载到中心数据仓库.并通过二次集成特各部门高度综合的数据加载到中心数据仓库。这种结构既具有自底向上方法的优点,又具有自顶向下方法的优点,例如。开发简单、数据结构统一等;而且比联合方法优越的是,解决数据的重复存储,使数据存储结构更合理,提供的数据更符合各级决策者需要。  相似文献   

17.
涂菲菲  周明辉 《软件学报》2019,30(5):1522-1531
问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正.  相似文献   

18.
在大数据产业发展的背景下,医疗卫生领域也开始探索生物医疗大数据的新用途、新价值.随着生物医疗大数据在临床治疗与科学研究中的应用,相应的数据安全隐患也随之出现,其隐私安全保障问题开始引起人们的重视.为了降低隐私泄露的风险,加强人们对生物医疗数据的保护意识,需要从数据的生命周期角度出发,在采集、存储、访问、应用、共享、销毁...  相似文献   

19.
在数据中心放置海量数据时,每个数据常有多个副本,服务提供商需要支付巨额电费以运行存储这些数据副本的服务器。同时,为保证多个数据副本的一致性,放置在不同数据中心的副本需要通过数据中心之间的网络进行同步,从而引发高额的网络传输费用。为此,以最小化多副本数据放置代价为目标,建立数据放置问题模型,并提出一种基于数据组和数据中心划分的数据放置算法DDDP。将数据划分为多个数据组,按用户访问数据的延迟要求将数据中心划分成数据中心子集,并将每个数据组中的数据放置到能满足访问延迟要求且能最小化放置代价的数据中心子集中。仿真结果表明,相比NPR算法,DDDP算法能有效降低数据中心存储数据时的放置代价。  相似文献   

20.
工业大数据是在工业领域信息化应用中所产生的海量数据,作为决策问题服务的大数据集、大数据技术和大数据应用的总称。首先分析工业大数据4V特性与工业数据的特有特征,以及工业大数据来源;从多源异构工业数据集成与数据融合方法、工业大数据计算架构、大数据带来的信息安全等三方面论述工业大数据面临的挑战与潜在价值。探讨了工业大数据分析与挖掘方法,提出了工业大数据平台的计算架构与大数据处理平台,构建轮胎企业大数据资源中心、大数据分析与决策应用系统。从销售数据分析和宏观数据趋势两个层面进行轮胎销售大数据分析与预测。采用多个不同领域的销售数据源来解决销售预测历史数据特征空间稀疏的问题,使用LASSO(The Least Absolute Shrinkage and Selectionator Operator)方法的多任务学习方法来解决高维样本空间的缺点,实验数据验证能够提升轮胎销售预测的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号