首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
径流小区泥沙量的测定是定量研究坡地和小流域水土流失的基础,在土壤侵蚀模型建立和水土流失预测方面有重要的意义.搅拌取样法是目前应用最广的径流含沙量测定方法,但由于所取样本为表层混合样,粗颗粒泥沙含量少,样本代表性较差,测得的泥沙量远小于实际泥沙量.为此,提出了一种改进的取样方法——沉淀取样法.该法的样本为风干若干小时后的泥沙样品,泥沙分布较为均匀,具有一定的代表性,测定的泥沙含量数据精度较高.根据2012—2013年的实测值,将以上两种方法测定的泥沙量数据进行相互对比,并用年终实测数据进行验证,最终得到较为准确的数据.  相似文献   

2.
基于可拓集的企业数据挖掘应用方案初探   总被引:8,自引:0,他引:8  
数据本身的质量差造成数据挖掘结论的可信度低已经成为影响数据挖掘应用的重要因素,针对不完备数据设计的清洗算法、容忍算法等都不能从根本上解决这个问题.通过深入分析这一矛盾现象的原因,对企业数据建立物元可拓集合,提出基于可拓方法的数据挖掘企业应用方案.以数据挖掘所需的完备数据集做为条件物元,发现数据质量差距,以事元“数据挖掘咨询”促使物元集可拓域的发展变换,推出以数据挖掘应用咨询带动数据质量改进的措施,从而解决了数据质量的矛盾问题,使数据质量不高的企业也可以实施数据挖掘项目,提高信息决策水平.  相似文献   

3.
天然气的组成分析需要以取样为基础。基于在线气相色谱仪的直接取样技术以及基于累积取样系统的间接取样技术已在国外天然气贸易交接中获得了广泛应用。以北京燃气集团某门站的试验数据为基础,对比了分别采用在线气相色谱仪和累积取样系统分析获得的燃气物性参数。结果表明,通过上述2种方式获得的数据具有高度的一致性。在城市燃气行业,累积取样系统的应用是对在线取样技术的有效补充。  相似文献   

4.
分析和研究梯形取样鉴相频率合成器环的分岔现象 ,根据 Ushio与 Hira等人的方法 ,从理论上证明了当系统参数满足一定条件时 ,系统会出现分岔现象 ,具体计算出系统在各个不动点处的 Hopf分岔集 ,给出了分岔与系统参数的关系式 ,揭示了分岔与系统参数的内在联系 ;最后通过计算系统的李雅普诺夫指数以及豪斯道夫维数 ,进一步验证了梯形取样鉴相频率合成器环中混沌现象的存在性。  相似文献   

5.
由于受到保密性、时间和数据多样性等一些原因的限制,测试数据集的获取一直困扰着数据挖掘算法的研究.因此,提出一种基于遗传算法和熵的测试数据集的模拟生成方法,生成方法利用遗传算法具有继承性的特性对采集到的少量的真实数据进行扩充和模拟,用熵衡量生成数据与真实数据的相似程度,最终生成规模大的测试数据集,并给出了描述型数据的生成算法.使用此方法,可以生成同真实数据集具有相同的属性,相同的属性取值区间和属性值分布,类似属性关联关系的测试数据集,加速数据挖掘算法的研究进程.  相似文献   

6.
随着数据挖掘应用领域的扩大,隐私保护的数据挖掘技术研究变得越来越重要.作为隐私保护数据挖掘的主要类型——隐私保护的分类数据挖掘已经成为近年来数据挖掘领域的热点之一.如何对原始数据进行变换,然后在变换后的数据集上构造判定树是隐私保护分类数据挖掘研究的重点.基于随机扰动矩阵提出一种隐私保护分类挖掘算法.该方法适用于字符型、布尔类型、分类类型和数字类型的离散数据,并且在隐私信息的保护度和挖掘结果的准确度上都有很大的提高.  相似文献   

7.
在制定GB/T14234-93《塑料件表面粗糙度》和上报待批的《塑料件表面粗糙度比较样块》国家标准各参数测试的基础上,对塑料件表面粗糙度取样长度及评定长度进行了验证分析,确定了在塑料件表面粗糙度测量中取样长度的上、上限及不同加工工艺时的取样长度,并分析了确定评定长度的依据及实验数据。  相似文献   

8.
环刀在外业工程土壤取样中有着重要的应用,传统的普通环刀在土壤取样方面有很多不足之处,为了解决环刀在土壤取样中剪切阻力大,土壤扰动大,环刀容易变形,取样慢,取样效率低等一系列问题,研制了实用新型组合环刀取样器,克服了以上缺点,并与传统的环刀法进行了对比测试与数据分析,得出了理想、显著的试验效果。从而在很大程度提升了取样速率,并保证了所取土壤的质量,保障了工程数据的准确性与可靠性。  相似文献   

9.
粗集理论在Web信息提取中的应用   总被引:1,自引:0,他引:1  
Web作为世界上最大的信息源,为数据挖掘技术提供了大量的原始数据,然而Web数据半结构化的特征使得在数据挖掘过程中必须选择合适的算法;研究Web信息提取的过程,并利用粗集方法实现对于来自Web的大批量农产品价格数据的挖掘过程。  相似文献   

10.
数据挖掘方法的评述   总被引:11,自引:0,他引:11  
决策离不开知识,从数据库中采掘知识,是解决从大信息量中获取有用知识的有效途径,但是在实际数据库中,数据的复杂性(如信息量大、噪声等)对数据挖掘方法提出了比机器学习更高的要求,这方面的研究正受到越来越多的关注。本文就当数据挖掘的几种主要方法,即神经网络、决策树、粗集和云模型等方法的研究现状进行了评述,指出其存在的问题。从总体上看,这些方法都有局限性,但它们的有机组合具有互补性,多方法融合将成为数据挖掘的发展趋势,最后指出数据挖掘方法面临的挑战。  相似文献   

11.
基于实际电厂的大量脱硫数据,删除初始脱硫数据库中异常值和非稳态值,提取与输出相关系数较高的集成学习模型输入参数,采用改进的基于随机采样和聚类采样的集成学习算法,建立预测脱硫塔循环泵开启台数的集成学习模型,研究分类问题中样本不均衡、优选样本评价标准缺失和脱硫优化的问题. 结果显示,与改进前模型相比,改进后的集成学习模型总体预测准确度提升了33%,并且基于聚类的采样略优于随机采样. 此外,对单一类别预测的召回率进行分析,对比不同算法对少数类和多数类的召回率,结果显示2种改进的采样方法对少数类的预测有较大的提升,预测的召回率大于90%,对多数类的预测也有一定的提升效果. 讨论泵组合作为模型输出时,其样本分布和模型精度的差异.  相似文献   

12.
特异性因子是数据的重要特征之一,常通过累计数据之间的差异得到,是面向特异性挖掘的核心概念,然而遇到了计算时间复杂度过高的问题。本文在分析已有特异性因子定义特点及其计算算法时间复杂度的基础上,指出应该基于采样的方法定义特异性因子。给出了一种基于采样的特异性因子定义,即采样特异性因子(sampled peculiarity factor,SPF),并提出了一种基于SPF的异常检测算法。在真实数据集上进行对比实验,结果表明:该算法在检测异常数据时,精度降低不明显,而运行效率得以较大提高,这说明基于采样定义特异性因子的方法可行和更为合理。本文还指出采用合适的采样方法可经进一步优化SPF的计算过程,进而节约占用CPU时间和满足实时性要求高的应用。  相似文献   

13.
在一般的假设条件下,导出分组抽样的样本平均值的方差计算式,并通过提出等效样本容量的概念,使分组抽样问题得以导入随机抽样为基础的分级理论。最后以检验费用为目标函数,给出了最优化决定分组抽样数量的方法,提出了在数理统计角度上评价抽样方法的指标。通过电算模拟抽样验证了有关理论结果。  相似文献   

14.
针对已有聚合式图嵌入方法多采用均匀采样函数为图中节点构建邻域,即仅随机采样邻居节点,而忽略各邻居节点自身性质的差异的问题,提出基于度值的非均匀邻居节点采样方法. 针对目标节点,优先采样其度值较大的邻居节点;隐藏一批度值较小的邻居节点,使它们在采样过程中不出现;在邻居节点集中随机采样剩余的节点以保留一定的采样随机性,这些随机采样的节点与优先采样的节点组成目标节点的邻域. 将所提出的非均匀邻居节点采样方法应用于图嵌入过程,在Reddit数据集上的图嵌入分类F1分数为91.7%,该结果优于几个知名的图嵌入方法的结果. 在重叠社团数据集PPI上的实验证实提出方法能够为图数据生成更高质量的嵌入.  相似文献   

15.
针对传统分类方法的局限性,提出了一种深度学习结合知识挖掘的零样本图像自适应控制图像分类算法.利用对图像属性的深度学习来实现图像深层次特征及属性的学习和预测,基于图像的属性-类别映射使分类器性能有较大差异,通过稀疏表示模型挖掘图像类别和属性之间的关系并设计自适应控制的属性分类器实现对图像的分类操作.结果表明,与DBN和SVM算法相比,在监督模式和零样本模式下,该算法具有较高的属性预测准确度.在零样本情况下对Shoes数据集进行分类时,该算法具有最高的准确分类识别率,比其他算法的分类识别率提高了15%.  相似文献   

16.
关于抽样定理最低抽样率的探讨   总被引:1,自引:0,他引:1  
介于抽样定理在通信理论中的广泛应用和实用价值,把抽样定理在不同教材中的定义进行了分析.以一般信号和正弦信号为例,通过理论分析和频谱图示意,对抽样定理中最低抽样率的取值进行了明确的说明.得出结论:只有抽样信号最低抽样率大于两倍信号带宽时,才能保证信号的无失真恢复.抽样定理中最低抽样率的明确说明为教学和理论研究提供了进一步的理论依据.  相似文献   

17.
面向不平衡问题的集成特征选择   总被引:2,自引:1,他引:2  
传统的特征选择方法基本上是以精度为优化目标,没有充分考虑数据样本类别分布倾斜性,在数据分布不平衡的数据集上性能表现不理想。在不平衡数据集上通过有放回的抽样方法独立地从数据集大类样本集中随机抽取多个样本子集,使每次随机抽取的样本数量与小类样本数量一致,然后将各抽取的样本子集分别与小类样本集组合成多个新的训练样本集。对多个新样本集的特征子集以集成学习的方式采用投票机制进行投票,数据集的最终特征子集以得票数目超过半数的特征共同组合而成。在UCI不平衡数据集上的实验结果显示,提出的方法表现出了较好的性能,是一种能够处理不平衡问题的有效特征选择方法。  相似文献   

18.
数据挖掘算法对于支持度改变及数据集更新的适应性一直都是一个难点。本文根据数据集逐步增加的增量式方法,映射事务模式于线性空间中进行挖掘,并借助了图像在操作系统中显示及存储的特点,提出了一种新的增量式数据挖掘算法IPM-DM。同时,对比分析了其中两种模式映射方法,并与同类算法比较,经过实验证明,算法IPM-DM是有效且可行的。  相似文献   

19.
基于大数据挖掘的实时性要求和数据样本的多样性特征,提出一种面向大数据挖掘的机器学习模型训练优化算法。分析当前算法的迭代计算过程,根据模型向量的改变量将迭代过程分为粗调和微调两个阶段,并发现在微调阶段绝大部分样本对计算结果的影响极小,因此可以在微调阶段不计算此类样本的梯度而直接采用上次迭代的计算结果,从而减小计算量,提升计算效率。试验结果表明,算法在分布式集群环境下可以减小模型训练约35%的计算量,且训练得到的模型准确度在正常范围内,可有效提高大数据挖掘的实时性。  相似文献   

20.
针对频繁模式和已有的相关模式不能完全去除交叉支持可疑模式和包含负相关商品项的可疑模式的问题,提出了关联且项项正相关频繁模式挖掘的新问题及其解决方案.阐述了一种新颖的all-item-confidence相关兴趣度量,探讨了该度量所具有的合适的上下界、反单调性等性质.选取all-item-confidence描述模式的项项正相关性,从而有效过滤包含负相关商品项的可疑模式;同时采用all-confidence描述模式的关联性,去除交叉支持可疑模式.进一步给出相关定义,提出两种挖掘算法:ItemCoMine_AP和ItemCoMine_CT,并对算法性能、度量减枝效果、实际零售数据集应用效果进行了测试. 实验结果表明,两种算法执行性能良好,all-confidence和all-item-confidence对可疑模式有明显的减枝效果,挖掘得到的关联且项项正相关模式具有较好的应用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号