首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
杨杨  詹德川  姜远  熊辉 《软件学报》2021,32(4):1067-1081
近年来多模态学习逐步成为机器学习、数据挖掘领域的研究热点之一,并成功应用于诸多现实场景,如跨媒介搜索、多语言处理、辅助信息点击率预估等.传统多模态学习方法通常利用模态间的一致性或互补性设计相应的损失函数或正则化项进行联合训练,进而提升单模态及集成的性能.而开放环境下,受数据缺失及噪声等因素的影响,多模态数据呈现不均衡性.具体表现为单模态信息不充分或缺失,从而导致“模态表示强弱不一致”、“模态对齐关联不一致”两大挑战,而针对不均衡多模态数据直接利用传统的多模态方法甚至会退化单模态和集成的性能.针对这类问题,可靠多模态学习被提出并进行了广泛研究,本文系统地总结和分析了目前国内外学者针对可靠多模态学习取得的进展,并对未来研究可能面临的挑战进行展望.  相似文献   

2.
海洋是高质量发展的要地,海洋科学大数据的发展为认知和经略海洋带来机遇的同时也引入了新的挑战。海洋科学大数据具有超多模态的显著特征,目前尚未形成面向海洋领域特色的多模态智能计算理论体系和技术框架。因此,本文首次从多模态数据技术的视角,系统性介绍面向海洋现象/过程的智能感知、认知和预知的交叉研究进展。首先,通过梳理海洋科学大数据全生命周期的阶段演进过程,明确海洋多模态智能计算的研究对象、科学问题和典型应用场景。其次,在海洋多模态大数据内容分析、推理预测和高性能计算3个典型应用场景中展开现有工作的系统性梳理和介绍。最后,针对海洋数据分布和计算模式的差异性,提出海洋多模态大数据表征建模、跨模态关联、推理预测以及高性能计算4个关键科学问题中的挑战,并提出未来展望。  相似文献   

3.
时间序列异常检测旨在发现对应时序特征中不符合一般规律的特异性模式,是机器学习领域重要的研究方向之一.然而,现有的时序异常检测方法大多为单模态学习,忽略了时序信息在多模态空间上不同特征分布的关联性和互补性,不能充分利用已有信息进行有效地模式挖掘,从而造成检测效果差等问题.为此,提出了一种基于多模态对抗学习的无监督时间序列异常检测模型.首先,将原始时间序列转换至频域空间,构造多模态时间序列表示.其次,提出多模态生成对抗网络模型,针对多模态时间序列,实现正常时序信息关于时域和频域特征分布的无监督联合学习.最后,通过将异常检测问题转化为时间序列在时域和频域空间的重构度量问题,从时域空间和频域空间2个方面度量时间序列的异常值,实现更有效的异常检测.在时间序列数据集合UCR和MIT-BIH中的6个真实数据集的实验结果表明,在异常检测任务上相较于传统单模态异常检测方法,提出方法在AUC和AP这2个性能指标上最高分别提升了12.50%和21.59%,证明了方法的有效性.  相似文献   

4.
大数据时代的到来使得用户的生活更加便利,但是数据挖掘与分析技术使得用户隐私问题面临巨大挑战。基于此,笔者从数据生命周期的不同阶段出发,阐述了用户隐私泄露问题,针对不同泄露情形提出了相关建议。目的在于保护个人数据隐私的同时,改善当前个人隐私泄露严重的现象,促进大数据时代用户数据的健康发展。  相似文献   

5.
长期以来, 传统的基于单模态数据情绪分析方法存在分析角度单一、分类准确率低下等问题, 时序多模态数据的分析方法为解决这些问题提供了可能. 本文基于话语间的时序多模态数据, 对现有的多模态情绪分析方法进行了改进, 使用双向门控循环网络(Bi-GRU)结合模态内和跨模态的上下文注意力机制进行情绪分析, 最后在MOSI和MOSEI数据集上进行验证. 实验表明, 利用话语间的时序多模态数据, 并且充分融合模态内以及跨模态上下文信息的方法, 能够从多模态特征和时序特征的角度进行情绪分析, 从而有效提高情绪分析任务的分类准确率.  相似文献   

6.
频繁项集挖掘FIM是最重要的数据挖掘任务之一,被挖掘数据集的特征对FIM算法的性能有着显著影响。在大数据时代,稀疏是大数据的典型特征之一,对传统FIM算法的性能带来严峻挑战。针对在稀疏数据中如何高效进行FIM的问题,从稀疏数据的特征出发,分析了稀疏数据对3种类型FIM算法性能的主要影响,对已经提出的稀疏数据FIM算法进行了综述,对算法中采用的优化策略进行了讨论,最后通过实验对代表性的稀疏数据FIM算法进行了性能分析。实验结果表明,采用伪构造策略的模式增长算法最适合用于稀疏数据的FIM,在运算时间和存储空间上,相比其他算法该算法具有较大的优势。  相似文献   

7.
多模态张量数据挖掘算法及应用   总被引:1,自引:0,他引:1  
近年来,多模态数据挖掘技术备受关注,如何高效地挖掘大量多模态数据成为一个研究热点。其中,基于张量表示的多模态数据挖掘,即多模态张量数据挖掘,是一个重要的研究问题。综述了多模态张量数据挖掘算法进展及其在计算机视觉中的应用。首先根据算法的样本标记、任务和核心技术的不同,对这些方法进行分类,并给出了相应的介绍和分析。其次,讨论了一些多模态张量数据挖掘算法在计算机视觉问题中的典型应用。最后,就多模态张量挖掘在计算机视觉领域的研究现状与研究前景进行了简要的分析。  相似文献   

8.
随着大数据时代的来临,传统的大型企业需要从和谐发展的角度出发开展大数据的研究与应用工作.在分析了国内外研究与应用现状的基础上,梳理了大数据的重要概念,归纳了企业在构建大数据的安全保障机制时面对的问题及解决方法,提出了基于大数据知识发现的通用流程框架,总结了4种典型的数据挖掘技术的基本概念与应用场合,为企业适应并参与到大数据时代提供一些思路.  相似文献   

9.
随着计算机与大数据技术在医学领域中的迅速应用以及医疗信息存储标准的逐渐完善,医学数据呈爆炸式增长。医学数据由于其自身特点而呈现出多模态形式,且这些多模态数据往往同时出现、互相补充,因此实现多模态数据间的相互检索具有重要的临床价值。回顾了近年来多模态检索在医学领域的实现方法,将其归纳为基于文本、基于内容以及基于融合信息的多模态检索,基于内容的多模态检索可进一步划分为基于传统特征的检索和基于深度特征的检索。针对多模态检索算法的性能,介绍了准确率、召回率以及平均精度均值等常用的评价指标。分析了当前医学领域多模态检索所面临的挑战,并对未来医学领域多模态检索的研究发展进行了展望。  相似文献   

10.
针对多数隐私保护算法不能较好平衡数据精度和数据隐私保护程度的问题,从数据集中准标识属性与敏感属性的关联关系出发,提出一种基于关联规则的匿名算法。运用Aprior算法建立属性间的关联规则,利用互信息量度量其关联度,为准标识属性的分级分类提供依据,同时设置泛化边界与权重,以避免产生较大的匿名成本。实验结果表明,该算法能够减少数据损失,实现数据效用与隐私保护之间的均衡。  相似文献   

11.
A Taxonomy of Dirty Data   总被引:3,自引:0,他引:3  
Today large corporations are constructing enterprise data warehouses from disparate data sources in order to run enterprise-wide data analysis applications, including decision support systems, multidimensional online analytical applications, data mining, and customer relationship management systems. A major problem that is only beginning to be recognized is that the data in data sources are often dirty. Broadly, dirty data include missing data, wrong data, and non-standard representations of the same data. The results of analyzing a database/data warehouse of dirty data can be damaging and at best be unreliable. In this paper, a comprehensive classification of dirty data is developed for use as a framework for understanding how dirty data arise, manifest themselves, and may be cleansed to ensure proper construction of data warehouses and accurate data analysis. The impact of dirty data on data mining is also explored.  相似文献   

12.
李建中  王宏志  高宏 《软件学报》2016,27(7):1605-1625
信息技术的迅速发展催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而,随着数据规模的增长,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数据的可用性,严重困扰着信息社会.近年来,数据可用性问题引起了学术界和工业界的共同关注,开展了深入研究,取得了一系列研究成果.本文介绍数据可用性的基本概念,讨论数据可用性的挑战与研究问题,综述数据可用性方面的研究成果,探索大数据可用性的未来研究方向.  相似文献   

13.
数据治理技术   总被引:2,自引:0,他引:2       下载免费PDF全文
吴信东  董丙冰  堵新政  杨威 《软件学报》2019,30(9):2830-2856
随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化.目前,各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理.首先介绍数据治理和大数据治理的概念、发展以及应用的必要性;其次,对已有的数据治理技术——数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计;在此基础上,提出了大数据HAO治理模型.该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)的三者协同为目标,再以公安的数据治理为例介绍HAO治理的应用;最后是对数据治理的总结和展望.  相似文献   

14.
伴随着人类进入大数据时代,大数据在彰显出巨大应用价值的同时,也凸显出数据可用的科技问题。如何解决数据可用带来的挑战,成为各国政府和学界高度关注的问题。目前,针对大数据的可用性研究刚刚起步,对大数据可用性进行了探讨,并就数据可用性的研究前景进行了展望。  相似文献   

15.
数据仓库系统中源数据的提取与集成   总被引:12,自引:0,他引:12  
人们对数据分析的要求的不断提高导致了数据仓库的发展,而在建设数据仓库的过程中非常关键的一步就是从事务数据库或其它的数据源中抽取和集成原始数据。本文在对数据集成方法和数据获取中可能碰到的问题进行全面分析的基础上,较为详细地介绍了我们自行开发的数据仓库系统SEUwarehouse中源数据提取与集成工具的设计与实现.  相似文献   

16.
数据提取、转换和装载技术研究   总被引:4,自引:0,他引:4  
来自企业操作环境的数据是数据仓库的数据源,通过提取、转换、装载填充数据仓库,对数据提取、转换与装载技术进行了研究与实践。对数据提取、转换与装载要解决的问题进行了详细论述并提出了相应的解决方法,并以MS SQL Server2000为例,介绍了可用于析取数据的一些工具。在此基础上,以电信行业话单数据载入数据仓库为实例,就如何实现各步骤进行了详细说明,提出了在数据提取、转换与装载过程中需注意的一些问题。  相似文献   

17.
数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果.  相似文献   

18.
数据迁移的一般原则   总被引:4,自引:0,他引:4  
在应用软件及数据库开发中经常要做数据迁移工作 ,数据迁移就是将数据从一种数据环境移入另一种数据环境中。进行彻底而精确的数据转换应遵循以下关键步骤 :识别源数据、确定数据集成转换的规则以及开发转换规则代码。介绍了数据迁移的一般步骤 ,并提出了从数据转换、选择迁移方法以及从元数据管理的角度评价迁移工具的标准  相似文献   

19.
涂菲菲  周明辉 《软件学报》2019,30(5):1522-1531
问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正.  相似文献   

20.
数据的集成与交换,对企业的管理和决策意义重大.数据集成和交换必须解决抽取、转换和加载,但过去的异构系统很难实现,从需求分析、系统设计和系统实现3个方面,设计了一种针对数据抽取、转换和装载(Extract、Transform、Load)的ETL工具.根据ETL工具的综合要求,通过结构化分析需求,构建了系统逻辑模型;设计了...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号