首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

2.
一种带完整性验证的数据聚集隐私保护算法   总被引:1,自引:0,他引:1  
石鲁生  秦小麟 《计算机科学》2013,40(11):197-202
为使无线传感器网络可以真正满足大规模应用的需求,提出了一种既能保护数据隐私又能验证数据完整性的聚集算法。算法首先构造不相交聚集树,然后让节点在各自对应的时间片内,按不同度数将自身数据分解为数个切片,并将切片分别加密传输至各聚集树中,达到保护节点数据隐私和获取冗余数据的目的,最后采用基于路由树的网内聚集将各聚集树的聚集结果传送至基站,由基站验证最终结果的完整性。仿真实验表明,在资源受限特征突出的无线传感器网络中,算法能够以较低的通信开销获得较高准确度的聚集结果,并具备较好的隐私保护性能和鉴别聚集结果完整性的能力。  相似文献   

3.
李芳  李永进 《计算机科学》2013,40(11):304-307
在推荐系统中,推荐算法不但要具备很高的准确性,还需要满足灵活性。为了使推荐算法满足准确性,同时尽量提高算法的灵活性,提出了一种基于随机游走的多维推荐算法。首先,应用用户的上下文信息建立一个多维的推荐系统模型;其次,将用户的查询分解为多个子查询,并建立相应的二部图;最后,应用随机游走模型将候选项排序,并将top-k个选项作为结果返回。实验结果表明,提出的推荐算法能灵活满足用户多样化的推荐查询,并具有很好的准确性,明显优于相关的推荐算法。  相似文献   

4.
基于数据场的粗糙聚类算法   总被引:2,自引:1,他引:1  
聚类分析是数据挖掘的研究热点.传统的聚类算法都是把一个对象精确地划分到一个聚类簇中,类别之间的界限是非常精确的.随着Web挖掘技术的发展,精确地划分每个对象的聚类算法面临着巨大的挑战.根据数据场理论和经典粗糙集理论所具有处理不精确与不确定性数据的特性,提出一种新的基于数据场的粗糙聚类算法,该粗糙聚类算法采用势值作为对象的划分依据,避免传统粗糙聚类算法一贯采用基于欧氏距离的划分方法.算法首先通过对数据对象进行粗分然后再不断迭代细分,直至形成稳定的聚类簇.实验分析过程中,把提出的算法与粗糙K-means算法和粗糙K-medoids算法进行了比较,结果表明该算法在交叉数据集上具有较好的聚类效果,而且收敛速度较快.  相似文献   

5.
冷飞  徐进华  栾仕喜 《计算机科学》2013,40(12):177-181
近年来,随着云计算技术的飞速发展,数据中心网络作为底层基础设施,发挥着越来越重要的作用。数据中心网络能够为各种云计算环境提供良好的服务。 这几年 在研究云计算的同时,数据中心也是一个重要的研究热点。学习了一些新的拓扑结构,主要包括Fat-tree、DCell以及BCube等。而这些方案在系统扩展太快或者太慢的情况下,都在不同程度上有一些性能的瓶颈或者在路由以及结构的构建上有比较高的代价。提出了一个代价有效并且具有很强扩展性和容错性的数据中心网络——DCNS。其混合了DCell以及BCube的优点,避免了它们各自的缺点。之后提出了一个针对DCNS的容错路由机制。最后,使用一个合适的测试环境来测试该数据中心网络架构的有效性。实验表明,DCNS能较好地满足数据中心对网络结构的要求,并且能够保证系统的可用性。  相似文献   

6.
郑涛  张帆 《现代计算机》2006,(6):19-21,36
CLARA是k-中心值聚类的一种算法,在处理大型数据集的聚类问题时,比PAM(围绕中心点的划分)更具有良好的伸缩性,但CLARA算法随机抽样中存在采样不准确的缺点.本文针对这一不足,使用了数据场的概念对CLARA聚类算法进行了有益的改进,提高了采样的准确性,使其更适合于对大型多维数据集的处理,提高了挖掘结果的质量.  相似文献   

7.
一种新的复杂网络聚类算法   总被引:2,自引:2,他引:2  
揭示网络簇结构的复杂网络聚类方法研究具有重要的理论意义和应用价值。应用两种谱方法将复杂网络簇结构发现问题转换为空间数据聚类问题,并将粒子群聚类算法应用到对复杂网络簇结构的探测,提出了两种新的结合粒子群聚类的复杂网络簇结构探测算法。最后在两类复杂网络上进行实验并对实验结果进行了比较分析,提出的新算法在聚类准确性方面效果更好。  相似文献   

8.
基于K-means聚类和数据场理论的复杂网络社团结构探寻   总被引:4,自引:0,他引:4  
探寻社团结构是研究复杂网络结构与功能之间关系的基础.提出和分析了基于K-means聚类的社团探寻算法和基于数据场理论的社团探寻算法,并通过实验仿真验证了这两种算法的有效性.在仿真中发现并验证了社团内部比整个网络具有更加鲜明的小世界效应,这说明在网络控制中,在相同的耦合强度下,对社团的同步控制比对整个鲻网络的同步控制更容易实现.  相似文献   

9.
徐明  刘广钟 《计算机科学》2013,40(11):65-69
针对水声传感器网络的特殊性,提出一种基于多种群萤火虫的路由协议,以确保数据包在水声传感器网络各节点之间正确、高效地转发。首先构造水声传感器网络的网络模型;然后,设计3种类型的萤火虫,通过各种萤火虫之间的协同工作提高路由路径构建的自适应性并实现路由路径的选择和优化。仿真实验结果表明,与传统的水声传感器网络路由协议相比,在节点数量相同情的况下,该路由协议的数据包传送率更高,平均端到端延时更低,并且在平均数据传送率相同情况下,网络吞吐量更大。  相似文献   

10.
景运革  李天瑞 《计算机科学》2013,40(11):261-264,286
研究了粗糙集属性约简问题,引入等价关系矩阵的诱导矩阵和矩阵的λ-截矩阵等概念来计算决策表的上、下近似集,进而给出基于关系矩阵的决策表正域求解方法,并从理论上证明了该方法的正确性。提出了粗糙集属性核的启发式约简,并用该方法计算最小约简,在属性动态增加时,用矩阵快速更新的方法来改变属性等价关系矩阵,可以快速地计算属性变化后的正域。最后,通过实例分析说明了属性约简的具体操作方法和算法的有效可行性。  相似文献   

11.
基于k最近邻网络的数据聚类算法   总被引:1,自引:0,他引:1  
聚类研究在数据挖掘研究领域中占有十分重要的地位。虽然目前已有很多数据聚类算法,但精度仍不够理想。文中提出一个基于结构化相似度的网络聚类算法(SSNCA),试图从网络聚类角度进一步提高数据聚类精度。具体解决方案是,将待聚类的向量数据集转化为k最近邻网络,并用SSNCA对该网络进行聚类。将SSNCA与c-Means、仿射传播进行比较,实验表明文中算法得到的目标函数稍差,但聚类精度要明显高于这两个算法。  相似文献   

12.
一种贝叶斯网络结构学习的优化策略   总被引:3,自引:0,他引:3  
贝叶斯网络(Bayesian Network,BN)近年成为数据挖掘引人注目的研究方向,贝叶斯网络的学习也就是要找出一个能够最真实反映现有数据集中各数据变量相互之间的依赖关系的贝叶斯网络模型。本文针对BN结构学习的Jie Cheng&David Bell算法作了相关研究并提出了优化策略(MJAC算法)。本文最后以一个经典概率模型验证了优化算法的可行性。  相似文献   

13.
In this paper we propose a new unsupervised dimensionality reduction algorithm that looks for a projection that optimally preserves the clustering data structure of the original space. Formally we attempt to find a projection that maximizes the mutual information between data points and clusters in the projected space. In order to compute the mutual information, we neither assume the data are given in terms of distributions nor impose any parametric model on the within-cluster distribution. Instead, we utilize a non-parametric estimation of the average cluster entropies and search for a linear projection and a clustering that maximizes the estimated mutual information between the projected data points and the clusters. The improved performance is demonstrated on both synthetic and real world examples.  相似文献   

14.
基于数据场改进的PAM聚类算法   总被引:4,自引:0,他引:4  
余建桥  张帆 《计算机科学》2005,32(1):165-167
PAM是基于κ-中心值聚类的一种算法,在处理数据集的聚类问题时,具有良好的准确性和伸缩性。但PAM算法在随机选取初始中心点时存在不足,而且在处理存在孤立点或哚声的数据时算法不是很健壮。本文针对这两点不足,使用了数据场的概念对PAM聚类算法进行了有益的改进,提高了算法的准确性和处理孤立点或噪声的能力,使其更适合于对数据集的处理,提高了挖掘结果的质量。  相似文献   

15.
数据场思想及其在联机签名鉴别中的应用   总被引:2,自引:0,他引:2  
签名鉴别是通过分析手写签名的书写风格来判断签字人身份的一门技术。该文提出了一种新的特征数据处理方法—数据场,并且介绍了描述数据场的函数—势函数。笔者把这一思想引入签名鉴别中,把鉴名所形成的四个时序序列(压力、压力变化率、速度和加速度)点作为场中的数据点来看待,形成四类数据场,再从场中提取特征,由于这些特征既考虑了静态的位置信息,又采用了压力、压力变化率等动态特性。在对中文签名的初步实验中得到了很好的实验结果。  相似文献   

16.
一种基于互信息的复杂网络节点重要性评估方法   总被引:1,自引:2,他引:1  
在复杂网络中,如何量化节点的重要性是一个基本问题。首先阐述了现有的计算方法,在此基础上提出了一种基于互信息的节点重要性评估方法。该方法揭示了网络拓扑结构特性,准确反映了节点的相对重要程度。对该方法进行了实验论证,并与现有方法进行了分析比较,结果表明基于互信息的评估方法简单有效,特别适用于大型复杂网络节点重要性的评估。  相似文献   

17.
Data anonymisation is of increasing importance for allowing sharing individual data among various data requesters for a variety of social network data analysis and mining applications. Most existing works of data anonymisation target at the optimization of the anonymisation metrics to balance the data utility and privacy, whereas they ignore the effects of a requester’s trust level and application purposes during the data anonymisation. Our aim of this paper is to propose a much finer level anonymisation scheme with regard to the data requester’s trust and specific application purpose. We firstly prioritize the attributes for anonymisation based on their importance to application purposes. Secondly, we build the projection between the trust value and the degree of data anonymiztion, which intends to determine to what extent the data should be anonymized. The decomposition algorithm is developed to find the desired anonymous solution, which ensures the uniqueness and correctness. Finally, we conduct extensive experiments on two real-world data sets and the results show the benefits of our approach for both data requesters and providers.  相似文献   

18.
针对特征空间中存在潜在相关特征的规律,分别利用谱聚类探索特征间的相关性及邻域互信息以寻求最大相关特征子集,提出联合谱聚类与邻域互信息的特征选择算法.首先利用邻域互信息移除与标记不相干的特征.然后采用谱聚类将特征进行分簇,使同一簇组中的特征强相关而不同簇组中的特征强相异.继而基于邻域互信息从每一特征簇组中选择与类标记强相关而与本组特征低冗余的特征子集.最后将所有选中特征子集组成最终的特征选择结果.在2个基分类器下的实验表明,文中算法能以较少的合理特征获得较高的分类性能.  相似文献   

19.
Learning from imbalanced data occurs frequently in many machine learning applications. One positive example to thousands of negative instances is common in scientific applications. Unfortunately, traditional machine learning techniques often treat rare instances as noise. One popular approach for this difficulty is to resample the training data. However, this results in high false positive predictions. Hence, we propose preprocessing training data by partitioning them into clusters. This greatly reduces the imbalance between minority and majority instances in each cluster. For moderate imbalance ratio, our technique gives better prediction accuracy than other resampling method. For extreme imbalance ratio, this technique serves as a good filter that reduces the amount of imbalance so that traditional classification techniques can be deployed. More importantly, we have successfully applied our techniques to splice site prediction and protein subcellular localization problem, with significant improvements over previous predictors.  相似文献   

20.
科技的进步带动着社会的进步,计算机技术的不断发展与创新,也使互联网更广泛的应用到人们的日常生活中。随着互联网技术的广泛应用,人们对网络信息安全的关注度也在逐渐提高,不仅能给人们的生活带来更多的方便,同时也会对公民互联网信息造成很大的威胁。所以,网络与信息安全防护的重要性就不言而喻。本文通过对网络与信息安全的现状进行分析,强调了网络安全的重要性,根据网络信息技术的使用情况,对其发展前景进行分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号