首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 640 毫秒
1.
针对数据清洗时数据的标准化问题提出采用基于特征的马尔可夫模型来解决这一问题。在学习模型的过程中,通过最大熵方法提高样本学习的泛化能力。这种方法能够充分利用数据的重叠特征来辨识数据项对应的状态,结合了统计模型和规则模型的优点。理论分析和实验表明,该方法可以有效地实现数据清洗时的数据规格化。  相似文献   

2.
叶晨  王宏志  高宏  李建中 《软件学报》2020,31(4):1162-1172
传统方法多数采用机器学习算法对数据进行清洗.这些方法虽然能够解决部分问题,但存在计算难度大、缺乏充足的知识等局限性.近年来,随着众包平台的兴起,越来越多的研究将众包引入数据清洗过程,通过众包来提供机器学习所需要的知识.由于众包的有偿性,研究如何将机器学习算法与众包有效且低成本结合在一起是必要的.提出了两种支持基于众包的数据清洗的主动学习模型,通过主动学习技术来减少众包开销,实现了对给定的数据集基于真实众包平台的数据清洗,最大程度减少成本的同时提高了数据的质量.在真实数据集上的实验结果验证了所提模型的有效性.  相似文献   

3.
数据清洗是保证数据质量的实用方法,但是如何实施灵活的和有效的数据清洗一直是研究的难点.基于此,提出了知识建模的数据清洗来保证数据质量的有效方法.依据清洗系统的现状分析,首先给出了静态库、动态库和静态清洗系统、动态清洗系统的相关概念;然后提出了知识建模的清洗模型,并给出了模型的具体设计和实现过程.最后通过使用知识建模的清洗模型,应用企业信用数据交换系统作为实验,验证了它的灵活性和有效性,保证了数据质量.  相似文献   

4.
挖掘COPD诊断信息敏感数据时,在挖掘前未对COPD诊断信息敏感数据进行数据清洗,存在挖掘查全率低、效率低,错误数据检测率低的问题,对此,提出基于神经网络模型的COPD诊断信息敏感数据自动挖掘方法,采用无监督进步式学习算法对COPD诊断信息进行清洗,消除重复记录的数据;通过支持向量机构建COPD诊断信息敏感数据挖掘模型,以神经网络模型对COPD诊断信息敏感数据挖掘模型进行自动求解,实现COPD诊断信息敏感数据自动挖掘.实验结果表明,所提方法的查全率高、挖掘效率高、错误数据检测率高.  相似文献   

5.
为解决基于遥感图像监测地表水资源变化的问题,在深度学习的框架下,基于卷积神经网络(CNN)提出了用于遥感图像水体提取的模型.利用网络爬虫的方式,搜集遥感图像,并通过随机裁剪、数据清洗等方式构建训练、验证和测试数据集.通过对低层语义特征学习提取抽象的高层特征,基于提取的高层特征进行网络模型训练.实验结果表明:水体提取的精...  相似文献   

6.
PM2.5污染问题是中国近年来引起广泛关注的环境问题,对PM2.5浓度进行预报有重要意义.传统的预报方法是基于空气动力学理论的数值模式预报方法.最近几年深度学习方法被广泛应用于PM2.5浓度预报问题.之前的深度学习预报方法主要是使用观测站的观测数据建立单点式的预报模型.本文使用ConvLSTM深度神经网络建立模型,在中国及周边区域的PM2.5数据集上实现了网格化的序列到序列预报.模型通过卷积模块提取空间特征,通过LSTM模块提取时间特征,适合解决PM2.5网格化预报问题.同时,模型中使用了再分析数据和模式数据两种不同来源的数据结合起来进行预报,融合了深度学习方法和传统数值模式方法.实验表明,模型的均方根误差比数值模式预报下降30.2%,具有良好的预报效果.  相似文献   

7.
目的 数据清洗是一个长期存在并困扰人们的问题,随着可视化技术的发展,可视数据清洗必将成为数据清洗的重要方法之一.阐述数据的主要质量问题和可视数据清洗的过程,回顾可视数据清洗的研究现状(包括数据质量问题的来源、分类以及可视数据清洗方法),并根据已有文献总结可视数据清洗面临的主要挑战和机遇.方法 由于数据清洗的方法和策略与具体的数据质量问题相关,因此本文以不同的数据质量问题为线索来归纳和评述可视数据清洗的方法和策略.结果 根据数据质量问题的不同,将可视清洗方法归纳为直接可视清洗、可视缺失数据、可视不确定数据、可视数据转换和数据清洗资源共享等,并依据不同的数据质量问题归纳总结出相应问题所面临的挑战和可进一步研究的方向.结论 对可视数据清洗的归纳、总结和展望,并指出在数据清洗领域中可视数据清洗将会是未来最有前景的研究方向之一.  相似文献   

8.
面向XML数据库的智能数据清洗策略   总被引:1,自引:0,他引:1       下载免费PDF全文
针对XML数据质量问题,通过引入贝叶斯学习方法与马尔可夫链概率转移策略建立XML数据清洗过程的元数据模型,根据综合清洗结构化数据中相似重复记录的思想,提出一种智能清洗XML数据的新方法。实验表明,与其他方法比较,该方法不仅自动化程度较高,降低人工参与的程度,而且精确率和查全率提升了2%~5%。  相似文献   

9.
点击率(CTR)预测是个性化广告和推荐系统中的一项基本任务. 针对提升点击率预测效果和处理冷启动问题, 本文中提出了一种基于改进降噪自动编码器的点击率预测模型ADVAE (ADditional Variational AutoEncoder),该模型在输入数据加入高斯随机噪声, 利用改进的降噪自动编码器生成新的嵌入特征, 然后分别进行低阶和高阶的特征交互来预测用户点击行为. 该方法可以在数据稀疏以及系统冷启动情况下, 更深层地学习特征嵌入与交叉之间的关系. 该模型关注特征域之间的交互, 动态修复低频数据的特征嵌入, 具有更强的鲁棒性. 此外, 该方法可以动态应用到其他深度学习模型, 具有更高的灵活性. 实验结果表明, 该方法在点击率预测和系统冷启动问题上的性能表现均优于现有方法.  相似文献   

10.
近些年很多基于深度学习的推荐模型被提出,这些模型通过对特征的处理和改变深度网络结构来解决推荐系统数据稀疏和冷启动的问题.然而现有的方法忽略了特征与特征之间的交互对深度网络的影响,限制了模型的学习能力.为了给用户推荐更感兴趣的项目和信息,本文提出了分解机深度网络(Factorization Machine Deep Ne...  相似文献   

11.
数据仓库环境下以用户为中心的数据清洗过程模型   总被引:7,自引:1,他引:7  
数据清洗是数据仓库和数据挖掘中非常重要的一个环节。本文首先分析总结了数据清洗的有关概念,给出了数据清洗中需要解决的质量问题,并总结了解决这些问题的技术和方法。在此基础上提出了以人为中心的数据清洗过程模型。该模型集成了工作流技术、数据集成、数据转换和数据挖掘技术。给出了每个工具箱应该提供的基本功能。  相似文献   

12.
针对无线传感器网络(WSN)数据不精确和不可靠的问题,根据感知数据的空间相关性定义了弹性空间模型,并在此基础上提出一种自适应近邻空间清洗方法(ANSA)。该方法根据感知数据波动动态调整近邻空间大小,并通过计算近邻节点测量数据的加权平均对本地数据清洗。实验结果表明,感知数据清洗后误差控制在0.5以内,与经典的加权移动平均(WMA)方法相比,所提方法的精确度更高,同时能量损耗减少约36%。  相似文献   

13.
This paper proposes a novel similarity measure for clustering sequential data. We first construct a common state space by training a single probabilistic model with all the sequences in order to get a unified representation for the dataset. Then, distances are obtained attending to the transition matrices induced by each sequence in that state space. This approach solves some of the usual overfitting and scalability issues of the existing semi-parametric techniques that rely on training a model for each sequence. Empirical studies on both synthetic and real-world datasets illustrate the advantages of the proposed similarity measure for clustering sequences.  相似文献   

14.
为了有效解决信息化建设过程中存在的各种问题,提高数据标准化工作效率,结合目前Web开发应用领域使用较为广泛的Turbine技术,提出适合我国数据标准化建设需求的数据字典管理系统模型.该模型包括数据管理、数据统计和系统管理,分别实现了数据标准化的各项功能需求,以及系统的安全性要求.  相似文献   

15.
房产地理信息系统时空数据组织研究   总被引:9,自引:0,他引:9  
首先对时态GIS的近十几年来的研究进展进行了回顾.然后通过对房产特征的分析,进行房产特征的分类,使之满足实际应用环境的需要.接着,提出了一种时空数据概念模型——基于Petri网的时空数据模型,同等的处理特征的状态和引起状态变化的变迁,不同与以往基于事件或基于状态(如快照等)的时空数据模型,该模型认为状态由变迁的改变,变迁由状态描述,两者互相依赖.通过该模型,将离散的状态和变迁连续化,状态和变迁的因果关系显式表达.最后,对房产GIS中的时空数据进行有机的组织,用现势库、工作库和历史库进行数据存储管理,实现时空分析即历史回溯、未来预测、变化趋势显示等等需求.  相似文献   

16.
本文分析了固定故障所反映出的状态变换特征,提出状态变换故障模型。基于无复位时序电路,详细研究了有复位的同步电路测试生成问题及在无复位电路中的应用。最后讨论了故障精简以及启发知识在测试过程中的应用。  相似文献   

17.
徐洪珍  曾国荪  王晓燕 《软件学报》2016,27(7):1772-1788
运用模型检测技术验证动态演化的正确性,是近年来软件体系结构动态演化研究领域面临的一个挑战.然而,当前的方法很少考虑软件体系结构动态演化时的相关条件.针对该问题,提出用条件状态转移系统表示软件体系结构动态演化的状态模型,将软件体系结构超图映射为状态,演化规则运用映射为条件状态转移关系,给出软件体系结构动态演化的条件超图文法到条件状态转移系统的映射方法以及相应的实现算法,实现了软件体系结构动态演化的条件状态转移系统的构建,并证明了在该映射方法下,软件体系结构动态演化条件超图文法与条件状态转移系统的互模拟等价.最后通过案例分析,运用该方法以及模型检测技术,验证了软件体系结构动态演化的相关性质,从而验证了该方法的有效性.  相似文献   

18.
We develop an approach for implementing a real time admissible heuristic search algorithm for solving project scheduling problems with resource constraints. This algorithm is characterized by the complete heuristic learning process: state selection, heuristic learning, and search path review. The implementation approach is based on the network structure and the activity status of a project; which consists of definition of states, state transition operator, heuristic estimation, and state transition cost. The performance analysis with a benchmark problem shows that, the accumulation of heuristic learning during the search process leads to the re-scheduling of more promising activities, and finds an optimal schedule efficiently.  相似文献   

19.
In this work, we propose a novel approach towards sequential data modeling that leverages the strengths of hidden Markov models and echo-state networks (ESNs) in the context of non-parametric Bayesian inference approaches. We introduce a non-stationary hidden Markov model, the time-dependent state transition probabilities of which are driven by a high-dimensional signal that encodes the whole history of the modeled observations, namely the state vector of a postulated observations-driven ESN reservoir. We derive an efficient inference algorithm for our model under the variational Bayesian paradigm, and we examine the efficacy of our approach considering a number of sequential data modeling applications.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号