期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

高菲宋韶旭王建民《软件学报》2021,32(3):689-711

为进一步优化推广大数据及人工智能技术,作为数据管理与分析的基础,数据质量问题日益成为相关领域的研究热点.通常情况下,数据采集及记录仪的物理故障或技术缺陷等会导致收集到的数据存在一定的错误,而异常错误会对后续的数据分析以及人工智能过程产生不可小视的影响,因此在数据应用之前需要对数据进行相应的数据清洗修复.现存的平滑修复方法会导致大量原本正确的数据点过度修复为异常值,而基于约束的顺序依赖方法以及SCREEN方法等也因为约束条件较为单薄而无法对复杂的数据情况进行精确修复.本文基于最小修复原则进一步提出了多区间速度约束下的时间序列数据修复方法,并采用动态规划方法来求解最优修复路径.具体来说,本文提出了多个速度区间来对时序数据进行约束,并根据多速度约束对各数据点形成一系列修复候选点,进而基于动态规划方法从中选取最优修复解.为验证上述方法的可行性和有效性,本文采用一个人工数据集,两个真实数据集以及一个带有真实错误的数据集在不同的异常率及数据量下对上述方法进行实验.由实验结果可知,相较于其他现存的修复方法,本文方法在修复结果及时间开销方面均有着较好的表现.进一步,本文对多个数据集通过聚类及分类精确率的验证来表明数据质量问题对后续数据分析及人工智能的影响至关重要,本方法可以提升数据分析及人工智能结果的质量. 相似文献

2.

面向聚合查询的Apache IoTDB物理元数据管理

赵东明邱圆辉康瑞宋韶旭黄向东王建民《软件学报》2023,34(3):1027-1048

时间序列数据在能源、制造、金融、气候等领域有着广泛应用,聚合查询是相关分析场景中常见的查询需求,快速获取海量数据的概要信息,对于提高数据分析工作的效率具有重要意义.通过存储元数据加速聚合查询是一种有效的提升聚合查询执行效率的手段,但现有的时间序列数据库都使用时间窗口切分数据,需要对数据进行实时排序和分区,难以适应物联网场景下高并发、大吞吐量的数据写入特点.因此,提出了一种面向聚合查询的ApacheIoTDB物理元数据管理方案.该方案按照数据文件的物理存储特性切分数据,并结合同步计算和异步计算策略,优先保证数据的写入性能.针对时间序列数据中普遍存在的乱序数据,将时间范围重叠的一组文件抽象为乱序文件组并提供元数据,聚合查询会被重写为3个结合物理元数据和原始数据的子查询高效执行.多个数据集上的实验验证了该方案对聚合查询执行效率的提升效果以及不同计算策略对性能的影响. 相似文献

3.

Apache IoTDB中的多模态数据编码压缩

贺文迪夏天睿宋韶旭黄向东王建民《软件学报》2024,35(3):1173-1193

时间序列数据在工业制造、气象、船舶、电力、车辆、金融等领域都有着广泛的应用,促进了时间序列数据库管理系统的蓬勃发展。面对愈加庞大的数据规模和多样的数据模态,高效的数据存储和管理方式十分关键,而数据的编码压缩愈发成为一个具有重要意义和价值的问题。现有的编码方法和相关系统,未能充分考虑不同模态的数据特点,或者未把一些时序数据的处理方法应用于数据编码问题中。本文全面阐述Apache IoTDB时序数据库系统中的多模态数据编码压缩方法及其系统实现,特别是面向工业物联网等应用场景。我们的编码方法,较为全面地考虑包括时间戳数据、数值数据、布尔值数据、频域数据、文本数据等多个不同模态的数据,充分挖掘和利用各自模态数据的特点,特别是包括时间戳模态中时间戳序列间隔近似的特点等,进行有针对性的编码方案设计。同时,将实际应用场景中可能出现的数据质量问题因素,纳入到编码算法的考量中。在多个数据集上的编码算法层面和系统层面的实验评估和分析,验证了我们的编码压缩方法及其系统实现的效果。相似文献

4.

时间序列对称模式挖掘

李盼盼宋韶旭王建民《软件学报》2022,33(3):968-984

随着信息化和工业化的融合,物联网和工业互联网蓬勃发展,由此产生了以时间序列为代表的大量工业大数据.时间序列中蕴含着很多有价值的模式,其中,对称模式在各类时间序列中广泛存在.挖掘对称模式对于行为分析、轨迹跟踪、异常检测等领域具有重要的研究价值,但时间序列的数据量往往高达几十甚至上百GB.使用直接的嵌套查询算法挖掘对称模式可能花费数月乃至数年的时间,而索引、下界和三角不等式等典型加速技术最多只能产生一两个数量级的加速.因此,基于动态时间规整算法的启发,提出了一种能够在O(w×|T|)的时间复杂度内挖掘出时间序列所有对称模式的方法.具体来说,给定对称模式长度约束,基于区间动态规划算法计算出对称子序列,进而依据贪心策略选择数量最多且不重叠的对称模式.此外,还研究了在时间序列数据流挖掘对称模式的算法,并根据窗口内数据的特征动态调节窗口大小,保证了对称模式数据的完整性.采用1个人工数据集、3个真实数据集在不同数据量下对上述方法进行实验.由实验结果可知,与其他对称模式挖掘方法相比,该方法在模式挖掘结果及时间开销方面均有较好的表现. 相似文献

5.

两两比较模型的Why-not问题解释及排序

下载免费PDF全文

祁丹蕊宋韶旭王建民《软件学报》2019,30(3):620-647

由于数据缺失，数据库用户通常无法获得查询结果中的预期答案.它被称为"Why-not问题"，即"为什么预期的元组不会出现在结果中".现有的方法通过列举可能的元组值来解释Why-not问题.枚举所给出解释的数量往往太大，无法由用户探索.完整性约束，如函数依赖，被用来排除不合格的解释.然而，许多属性在简化后解释中仅仅表示为变量，用户可能仍然无法理解.由于数据稀疏性，许多不合理的解释也会被推荐给用户.提出通过研究元组间两两比较关系，从而对Why-not问题的解释进行排序的方法.首先，重新定义为什么Why-not问题解释的形式没有变量，以便于用户理解；其次，对元组中的相等/不相等关系进行表示，提出在{0，1}表示的元组对的基础上学习统计模型，从而解决直接在原始数据上学习所带来的稀疏性问题，许多模型可以被用来推断概率，包括统计分布、分类和回归；最后，根据推断的概率对解释进行评价和排序.实验结果证明：利用统计、分类和回归方法计算两两关系概率分布的方法，可以为用户寻找Why-not问题的解释并返回较为高质量的解释. 相似文献