首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
《电子技术应用》2017,(9):132-136
K-匿名算法及现存K-匿名改进算法大多使用牺牲时间效率降低发布数据信息损失量的方法实现数据的匿名化,但随着数据量的急剧增长,传统的数据匿名化方法已不适用于对较大数据的处理。针对K-匿名算法在单机执行过程中产生大量频繁项集和重复搜索数据表的缺点,将MapReduce模型引入到抽样泛化路径K-匿名算法中对其进行优化。该方法兼具MapReduce及抽样泛化算法的优点,高效分布式匿名化数据集,降低发布数据集信息损失量,提高数据的可用性。实验结果表明:当数据量较大时,该优化算法在时间效率及数据精度方面有显著提高。  相似文献   

2.
不均衡数据集学习中基于初分类的过抽样算法   总被引:2,自引:0,他引:2  
韩慧  王路  温明  王文渊 《计算机应用》2006,26(8):1894-1897
为了有效地提高不均衡数据集中少数类的分类性能,提出了基于初分类的过抽样算法。首先,对测试集进行初分类,以尽可能多地保留多数类的有用信息;其次,对于被初分类预测为少数类的样本进行再次分类,以有效地提高少数类的分类性能。使用美国加州大学欧文分校的数据集将基于初分类的过抽样算法与合成少数类过抽样算法、欠抽样方法进行了实验比较。结果表明,基于初分类的过抽样算法的少数类与多数类的分类性能都优于其他两种算法。  相似文献   

3.
一种贝叶斯网络结构学习的混合随机抽样算法   总被引:1,自引:0,他引:1  
贝叶斯网络结构学习的随机抽样算法存在收敛速度慢的问题,为此,结合均匀抽样和独立抽样,从初始样本、抽样方式和建议分布3个方面对抽样过程进行改进,提出一种混合型马尔可夫链蒙特卡罗抽样算法(HSMHS)。基于节点之间的互信息生成网络结构的初始样本,在迭代抽样阶段,按一定的概率随机选择均匀抽样和独立抽样,并根据当前抽样的样本总体计算独立抽样的建议分布,以改善抽样过程的融合性,加快收敛速度。对算法进行正确性分析,证明其抽样过程收敛于网络结构的后验概率分布,可保持较高的学习精度。在标准数据集上的实验结果表明,HSMHS算法的学习效率和精度均高于同类算法MHS、PopMCMC和Order-MCMC。  相似文献   

4.
为了快速、准确地对含有高比例外点的数据进行模型参数估计,提出一种重抽样优化的快速RANSAC算法.首先在模型检验之前增设预检验,并采用一种基于样条曲线的损失函数来评价模型的质量;然后通过反复重抽样和模型检验来优化内点集;再依据双阈值对内点集进行渐近提纯;最后利用最优内点集来计算模型的参数.特征匹配和基础矩阵估计的实验结果表明,该算法具有较高的精度和效率;当外点比例高于50%时,运行速度比传统算法提高大于2个数量级.  相似文献   

5.
工程应用中,在某些需要大量的迭代计算来确定个体细胞亲和力的场合,传统的克隆选择算法由于计算的开销太大而变得不可行。针对该问题,该文提出一种新的Hoeffding克隆选择算法(H-CLONALG)来解决耗时的亲和力(适应度)计算问题。并将该算法应用于大数据集的关联分类,来提高构造关联分类器时算法的效率。基于Hoeffding不等式,该算法可以以确定的概率保证得到的解为最优解或接近于最优的解。实验表明,当数据集规模较大时,该方法能显著地减少分类器的构造时间,同时保证所构造的分类器的分类精度。  相似文献   

6.
针对目前关联规则挖掘的数据集不断增大,而很多抽样算法精度不高还要解决一系列NP难问题等情况。在分析利用频繁1项集进行抽样处理的基础上,提出了高精度的基于频繁n项集平均划分的关联规则挖掘算法——EHAC算法。理论和实验都表明,EHAC能够提高数据挖掘精度,在数据平均划分的同时,尽量保证频繁n项集能够平均划分,减少了数据库扫描次数,一定程度上缩减了数据库规模。  相似文献   

7.
张德喜  黄浩 《计算机应用》2006,26(8):1884-1887
EM算法的计算强度较大,且当数据集较大时,计算效率较低。为此,提出了基于部分E步的混合EM算法,降低了算法的计算强度,提高了算法对数据集大小的适应能力,并且保持了EM算法的收敛特性。最后通过将算法应用于大的数据集,验证了该算法能减少计算强度。  相似文献   

8.
预定数据链规模的单纯型连续近邻链查询   总被引:2,自引:0,他引:2       下载免费PDF全文
研究预定数据链规模的单纯型连续近邻链(SCNNC)查询问题,基于Hilbert曲线,提出SCNNC_H_SS算法,将已处理过的数据点从数据集中进行剔除,可减少大量冗余计算。为对SCNNC进行动态维护和更新,提出SCNNC_H_CS算法。理论分析和实验结果表明,在数据集和待查近邻链的规模较大时,相比基于传统树索引结构的方法,该算法具有更高的查询效率。  相似文献   

9.
k近邻多标签算法(ML-kNN)是一种懒惰学习算法,并已经成功地应用到实际生活中。随着信息量的不断增大,将ML-kNN算法运用到大数据集上已是形势所需。利用聚类算法将数据集分为几个不同的部分,然后在每一个部分中使用ML-kNN算法,并在四个规模不同的数据集上进行了一系列实验。实验结果表明,基于此思想的ML-kNN算法不论在精度、性能还是效率上都略胜一筹。  相似文献   

10.
P2P系统经常需要分布式方法来估计系统中具有某种特征的节点数量,即规模估计。研究了基于抽样理论的规模估方法,该方法具有较好的健壮性和可扩展性。针对P2P应用,对两个基于抽样理论的规模估计算法进行了改进,分别是基于抽样冲突和基于样本分布算法。实验结果指出改进算法牺牲少量的精度而大大减小运行开销。并首次指出当总采样量不变时,基于样本分布的规模估计方法更适合采用“单次大样本”的策略。  相似文献   

11.
一种改进的密度偏差抽样算法   总被引:1,自引:0,他引:1  
张建锦  吴渝  刘小霞 《计算机应用》2007,27(7):1695-1698
随机抽样技术已经广泛应用于数据挖掘的各类算法中,它在处理分布均匀的数据集时非常有效,但在处理分布比较倾斜的数据集时容易丢失小的聚类。为此提出基于网格的密度偏差抽样算法,仅需要扫描一遍数据集就可以得到近似的密度偏差抽样。经实验测试分析表明,该算法不仅提高了聚类的正确性,而且抗噪声能力强、效率高,是解决海量数据挖掘的一种有效途径。  相似文献   

12.
传统的分类算法大都默认所有类别的分类代价一致,导致样本数据非均衡时产生分类性能急剧下降的问题.对于非均衡数据分类问题,结合神经网络与降噪自编码器,提出一种改进的神经网络实现非均衡数据分类算法,在神经网络模型输入层与隐层之间加入一层特征受损层,致使部分冗余特征值丢失,降低数据集的不平衡度,训练模型得到最优参数后进行特征分类得到结果.选取UCI标准数据集的3组非均衡数据集进行实验,结果表明采用该算法对小数据集的分类精度有明显改善,但是数据集较大时,分类效果低于某些分类器.该算法的整体分类效果要优于其他分类器.  相似文献   

13.
周红芳  赵雪涵  周扬 《计算机应用》2012,32(8):2182-2185
传统密度算法DBSCAN与DBRS的缺点在于时间性能和聚类精度均较低,为此,提出一种结合限定区域数据取样技术的密度聚类算法——DBLRS。该算法在不增加时间和空间复杂度的基础上利用参数Eps查找核心点的邻域点和扩展点,并在限定区域(Eps,2Eps)内进行数据抽样。实验结果表明,限定区域内选取代表点进行簇的扩充降低了大簇分裂的概率,提高了算法效率与聚类精度。  相似文献   

14.
郑仙花  骆炎民 《计算机应用》2012,32(11):3201-3205
针对传统的克隆选择算法(CSA)只依次单独针对某一类样本数据进行监督学习从而造成分类效率和精确度不高的问题,提出一种基于改进克隆选择算法的多类监督分类算法。算法通过进化学习可以同时获得多类样本数据的最佳聚类中心,进化过程中抗体适度值的计算综合考虑各类的类内相似性和类间差异性,从而保证得到的最佳聚类中心更具代表性。后续的分类实验中,分别利用常用的4组UCI数据和红树林多光谱TM遥感图像对算法进行验证,实验结果表明遥感图像的分类总精度达到92%,Kappa系数为0.91,UCI数据分类结果也较好,证明该算法是一种有效的多类数据分类算法。  相似文献   

15.
不平衡分类问题广泛地应用于现实生活中,针对大多数重采样算法侧重于类间平衡,较少关注类内数据分布不平衡问题,提出一种基于聚类的混合采样算法。首先对原始数据集聚类,然后对每一簇样本计算不平衡比,根据不平衡比的大小对该簇样本做出相应处理,最后将平衡后的数据集放入GBDT分类器进行训练。实验表明该算法与几种传统算法相比F1-value和AUC更高,分类效果更好。  相似文献   

16.
In their unmodified form, lazy-learning algorithms may have difficulty learning and tracking time-varying input/output function maps such as those that occur in concept shift. Extensions of these algorithms, such as Time-Windowed forgetting (TWF), can permit learning of time-varying mappings by deleting older exemplars, but have decreased classification accuracy when the input-space sampling distribution of the learning set is time-varying. Additionally, TWF suffers from lower asymptotic classification accuracy than equivalent non-forgetting algorithms when the input sampling distributions are stationary. Other shift-sensitive algorithms, such as Locally-Weighted forgetting (LWF) avoid the negative effects of time-varying sampling distributions, but still have lower asymptotic classification in non-varying cases. We introduce Prediction Error Context Switching (PECS) which allows lazy-learning algorithms to have good classification accuracy in conditions having a time-varying function mapping and input sampling distributions, while still maintaining their asymptotic classification accuracy in static tasks. PECS works by selecting and re-activating previously stored instances based on their most recent consistency record. The classification accuracy and active learning set sizes for the above algorithms are compared in a set of learning tasks that illustrate the differing time-varying conditions described above. The results show that the PECS algorithm has the best overall classification accuracy over these differing time-varying conditions, while still having asymptotic classification accuracy competitive with unmodified lazy-learners intended for static environments.  相似文献   

17.
张绮曼  张颖 《计算机科学》2018,45(12):77-80, 116
在无线传感器网络的节点定位领域,常用的以蒙特卡洛为基础的定位算法均存在定位误差大、采样效率低的问题。为了提高无线传感器网络中针对移动节点的采样效率和定位精确度,文中采用马尔科夫链进行抽样,提出了一种基于蒙特卡洛的改进算法。该算法在蒙特卡洛算法的基础上,结合马尔科夫链采集节点样本,随后对其进行过滤,再通过对得到的节点位置值进行加权计算,得到节点的准确位置。仿真实验结果表明,通过该算法得到的节点定位误差低于其他算法,提高了采样效率以及对移动节点的定位准确率。  相似文献   

18.
针对传统聚类算法对流数据进行聚类时面临时间复杂度高,存储空间需求大以及准确度较低的问题,提出一种基于差异性采样的流数据聚类算法。首先利用差异性采样法对流数据进行采样并用样本点构造核矩阵,然后利用核模糊C均值聚类算法对核矩阵中的点进行聚类得到一个带有标记的样本核矩阵,最后利用带有标记的样本核矩阵对流数据中的点进行划分。同时利用衰退聚类机制,实时更新样本核矩阵。实验结果表明,相比于传统聚类算法,该算法实现了更低的时间复杂度,同时实时聚类,得到较为理想的聚类结果。  相似文献   

19.
针对大数据环境下随机森林算法存在冗余与不相关特征过多、特征子空间信息含量不足以及并行化效率低等问题,提出了结合增益率与堆叠自编码器的并行随机森林算法PRFGRSAE(parallel random forest algorithm combining gain ratio and stacked auto encoders)。首先,提出了结合非线性归一化增益率和堆叠自编码器的降维策略DRNGRSAE(dimension reduction combining nonlinear normalization gain ratio and stacked auto encoders),通过过滤特征集中的冗余和不相关特征,并利用堆叠自编码器提取特征,有效减少了冗余以及不相关特征数;其次,提出了结合拉丁超立方抽样与归一化相关度的子空间选择策略SSLF(subspace selection strategy combining Latin hypercube sampling and feature class correlation),通过对特征集进行多层划分抽样,形成空间表达度较高的特征子空...  相似文献   

20.
刘畅  唐达 《软件》2011,32(1):14-17
为了构建传感器网络流数据的概要数据,给出一种改进的加权随机抽样算法:IWRS算法。该算法根据流数据变化的快慢程度,动态的对流数据加权,将权值做为数据项的键值,根据键值大小、skipping因子、退避因子对流数据进行抽样,解决了现有的抽样算法生成的概要数据与原始数据偏离大小不确定以及数据稳定度低的时候生成概要数据效率不高问题。并将该算法应用到深海平台监测系统中,与其他抽样算法相比,该算法在数据变化稳定的情况下能快速的生成概要数据,当监测到数据变化剧烈时,动态改变抽样方式,抽取的概要数据精确性高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号