共查询到20条相似文献,搜索用时 437 毫秒
1.
2.
3.
一种贝叶斯网络结构学习的混合随机抽样算法 总被引:1,自引:0,他引:1
贝叶斯网络结构学习的随机抽样算法存在收敛速度慢的问题,为此,结合均匀抽样和独立抽样,从初始样本、抽样方式和建议分布3个方面对抽样过程进行改进,提出一种混合型马尔可夫链蒙特卡罗抽样算法(HSMHS)。基于节点之间的互信息生成网络结构的初始样本,在迭代抽样阶段,按一定的概率随机选择均匀抽样和独立抽样,并根据当前抽样的样本总体计算独立抽样的建议分布,以改善抽样过程的融合性,加快收敛速度。对算法进行正确性分析,证明其抽样过程收敛于网络结构的后验概率分布,可保持较高的学习精度。在标准数据集上的实验结果表明,HSMHS算法的学习效率和精度均高于同类算法MHS、PopMCMC和Order-MCMC。 相似文献
4.
为了快速、准确地对含有高比例外点的数据进行模型参数估计,提出一种重抽样优化的快速RANSAC算法.首先在模型检验之前增设预检验,并采用一种基于样条曲线的损失函数来评价模型的质量;然后通过反复重抽样和模型检验来优化内点集;再依据双阈值对内点集进行渐近提纯;最后利用最优内点集来计算模型的参数.特征匹配和基础矩阵估计的实验结果表明,该算法具有较高的精度和效率;当外点比例高于50%时,运行速度比传统算法提高大于2个数量级. 相似文献
5.
工程应用中,在某些需要大量的迭代计算来确定个体细胞亲和力的场合,传统的克隆选择算法由于计算的开销太大而变得不可行。针对该问题,该文提出一种新的Hoeffding克隆选择算法(H-CLONALG)来解决耗时的亲和力(适应度)计算问题。并将该算法应用于大数据集的关联分类,来提高构造关联分类器时算法的效率。基于Hoeffding不等式,该算法可以以确定的概率保证得到的解为最优解或接近于最优的解。实验表明,当数据集规模较大时,该方法能显著地减少分类器的构造时间,同时保证所构造的分类器的分类精度。 相似文献
6.
针对目前关联规则挖掘的数据集不断增大,而很多抽样算法精度不高还要解决一系列NP难问题等情况。在分析利用频繁1项集进行抽样处理的基础上,提出了高精度的基于频繁n项集平均划分的关联规则挖掘算法——EHAC算法。理论和实验都表明,EHAC能够提高数据挖掘精度,在数据平均划分的同时,尽量保证频繁n项集能够平均划分,减少了数据库扫描次数,一定程度上缩减了数据库规模。 相似文献
7.
EM算法的计算强度较大,且当数据集较大时,计算效率较低。为此,提出了基于部分E步的混合EM算法,降低了算法的计算强度,提高了算法对数据集大小的适应能力,并且保持了EM算法的收敛特性。最后通过将算法应用于大的数据集,验证了该算法能减少计算强度。 相似文献
8.
9.
k近邻多标签算法(ML-kNN)是一种懒惰学习算法,并已经成功地应用到实际生活中。随着信息量的不断增大,将ML-kNN算法运用到大数据集上已是形势所需。利用聚类算法将数据集分为几个不同的部分,然后在每一个部分中使用ML-kNN算法,并在四个规模不同的数据集上进行了一系列实验。实验结果表明,基于此思想的ML-kNN算法不论在精度、性能还是效率上都略胜一筹。 相似文献
10.
曹佳 《计算机工程与应用》2008,44(20):99-101
P2P系统经常需要分布式方法来估计系统中具有某种特征的节点数量,即规模估计。研究了基于抽样理论的规模估方法,该方法具有较好的健壮性和可扩展性。针对P2P应用,对两个基于抽样理论的规模估计算法进行了改进,分别是基于抽样冲突和基于样本分布算法。实验结果指出改进算法牺牲少量的精度而大大减小运行开销。并首次指出当总采样量不变时,基于样本分布的规模估计方法更适合采用“单次大样本”的策略。 相似文献
11.
12.
传统的分类算法大都默认所有类别的分类代价一致,导致样本数据非均衡时产生分类性能急剧下降的问题.对于非均衡数据分类问题,结合神经网络与降噪自编码器,提出一种改进的神经网络实现非均衡数据分类算法,在神经网络模型输入层与隐层之间加入一层特征受损层,致使部分冗余特征值丢失,降低数据集的不平衡度,训练模型得到最优参数后进行特征分类得到结果.选取UCI标准数据集的3组非均衡数据集进行实验,结果表明采用该算法对小数据集的分类精度有明显改善,但是数据集较大时,分类效果低于某些分类器.该算法的整体分类效果要优于其他分类器. 相似文献
13.
14.
针对传统的克隆选择算法(CSA)只依次单独针对某一类样本数据进行监督学习从而造成分类效率和精确度不高的问题,提出一种基于改进克隆选择算法的多类监督分类算法。算法通过进化学习可以同时获得多类样本数据的最佳聚类中心,进化过程中抗体适度值的计算综合考虑各类的类内相似性和类间差异性,从而保证得到的最佳聚类中心更具代表性。后续的分类实验中,分别利用常用的4组UCI数据和红树林多光谱TM遥感图像对算法进行验证,实验结果表明遥感图像的分类总精度达到92%,Kappa系数为0.91,UCI数据分类结果也较好,证明该算法是一种有效的多类数据分类算法。 相似文献
15.
不平衡分类问题广泛地应用于现实生活中,针对大多数重采样算法侧重于类间平衡,较少关注类内数据分布不平衡问题,提出一种基于聚类的混合采样算法。首先对原始数据集聚类,然后对每一簇样本计算不平衡比,根据不平衡比的大小对该簇样本做出相应处理,最后将平衡后的数据集放入GBDT分类器进行训练。实验表明该算法与几种传统算法相比F1-value和AUC更高,分类效果更好。 相似文献
16.
Tolerating Concept and Sampling Shift in Lazy Learning Using Prediction Error Context Switching 总被引:2,自引:0,他引:2
MARCOS Salganicoff 《Artificial Intelligence Review》1997,11(1-5):133-155
In their unmodified form, lazy-learning algorithms may have difficulty learning and tracking time-varying input/output function maps such as those that occur in concept shift. Extensions of these algorithms, such as Time-Windowed forgetting (TWF), can permit learning of time-varying mappings by deleting older exemplars, but have decreased classification accuracy when the input-space sampling distribution of the learning set is time-varying. Additionally, TWF suffers from lower asymptotic classification accuracy than equivalent non-forgetting algorithms when the input sampling distributions are stationary. Other shift-sensitive algorithms, such as Locally-Weighted forgetting (LWF) avoid the negative effects of time-varying sampling distributions, but still have lower asymptotic classification in non-varying cases. We introduce Prediction Error Context Switching (PECS) which allows lazy-learning algorithms to have good classification accuracy in conditions having a time-varying function mapping and input sampling distributions, while still maintaining their asymptotic classification accuracy in static tasks. PECS works by selecting and re-activating previously stored instances based on their most recent consistency record. The classification accuracy and active learning set sizes for the above algorithms are compared in a set of learning tasks that illustrate the differing time-varying conditions described above. The results show that the PECS algorithm has the best overall classification accuracy over these differing time-varying conditions, while still having asymptotic classification accuracy competitive with unmodified lazy-learners intended for static environments. 相似文献
17.
在无线传感器网络的节点定位领域,常用的以蒙特卡洛为基础的定位算法均存在定位误差大、采样效率低的问题。为了提高无线传感器网络中针对移动节点的采样效率和定位精确度,文中采用马尔科夫链进行抽样,提出了一种基于蒙特卡洛的改进算法。该算法在蒙特卡洛算法的基础上,结合马尔科夫链采集节点样本,随后对其进行过滤,再通过对得到的节点位置值进行加权计算,得到节点的准确位置。仿真实验结果表明,通过该算法得到的节点定位误差低于其他算法,提高了采样效率以及对移动节点的定位准确率。 相似文献
18.
针对传统聚类算法对流数据进行聚类时面临时间复杂度高,存储空间需求大以及准确度较低的问题,提出一种基于差异性采样的流数据聚类算法。首先利用差异性采样法对流数据进行采样并用样本点构造核矩阵,然后利用核模糊C均值聚类算法对核矩阵中的点进行聚类得到一个带有标记的样本核矩阵,最后利用带有标记的样本核矩阵对流数据中的点进行划分。同时利用衰退聚类机制,实时更新样本核矩阵。实验结果表明,相比于传统聚类算法,该算法实现了更低的时间复杂度,同时实时聚类,得到较为理想的聚类结果。 相似文献
19.
针对大数据环境下随机森林算法存在冗余与不相关特征过多、特征子空间信息含量不足以及并行化效率低等问题,提出了结合增益率与堆叠自编码器的并行随机森林算法PRFGRSAE(parallel random forest algorithm combining gain ratio and stacked auto encoders)。首先,提出了结合非线性归一化增益率和堆叠自编码器的降维策略DRNGRSAE(dimension reduction combining nonlinear normalization gain ratio and stacked auto encoders),通过过滤特征集中的冗余和不相关特征,并利用堆叠自编码器提取特征,有效减少了冗余以及不相关特征数;其次,提出了结合拉丁超立方抽样与归一化相关度的子空间选择策略SSLF(subspace selection strategy combining Latin hypercube sampling and feature class correlation),通过对特征集进行多层划分抽样,形成空间表达度较高的特征子空... 相似文献
20.
为了构建传感器网络流数据的概要数据,给出一种改进的加权随机抽样算法:IWRS算法。该算法根据流数据变化的快慢程度,动态的对流数据加权,将权值做为数据项的键值,根据键值大小、skipping因子、退避因子对流数据进行抽样,解决了现有的抽样算法生成的概要数据与原始数据偏离大小不确定以及数据稳定度低的时候生成概要数据效率不高问题。并将该算法应用到深海平台监测系统中,与其他抽样算法相比,该算法在数据变化稳定的情况下能快速的生成概要数据,当监测到数据变化剧烈时,动态改变抽样方式,抽取的概要数据精确性高。 相似文献