首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
针对许多应用领域中的数据大多是连续型数值,且由于成本限制和隐私保护等因素导致数据呈现不完备性。为此,提出面向不完备邻域系统的三支决策粒计算方法,引入邻域概念改进非对称相似关系,并通过改进的非对称相似关系计算不完备邻域系统的邻域粒度;在此基础上计算对象属于决策类的最大条件概率,再根据三支决策规则分别将对象划分到各决策类的正域、负域和边界域;通过实验比较和分析,进一步验证了该方法能获得较好的划分准确率和较低的误划分损失,为三支决策对不完备邻域数据的分析和处理提供了一种有效可行的方法。  相似文献   

2.
聚类是数据挖掘的重要技术之一,在许多实际应用领域,由于数据获取限制,数据误读,随机噪音等原因会造成大量的缺失数据,形成数据集的不完备性,而传统的聚类方法无法直接对这类数据集进行聚类分析。针对数值型数据,提出了一个基于三支决策的不完备数据聚类方法。首先找到不完备数据对象的q个近邻,使用q个近邻的平均值填充缺失的数据;然后在"完备的"数据集上使用基于密度峰值的聚类方法得到簇划分,对每个簇中含有不确定性的数据对象,使用三支决策的思想将其划分到边界域中。三支决策聚类结果采用区间集形式表示,通常一个簇被划分成正域、负域和边界域部分,可以更好地描述软聚类结果。在UCI数据集和人工数据集上的实验结果展示了算法的有效性。  相似文献   

3.
针对传统模型在解决不平衡数据分类问题时存在精度低、稳定性差、泛化能力弱等问题,提出基于序贯三支决策多粒度集成分类算法MGE-S3WD。采用二元关系实现粒层动态划分;根据代价矩阵计算阈值并构建多层次粒结构,将各粒层数据划分为正域、边界域和负域;将各粒层上的划分,按照正域与负域、正域与边界域、负域与边界域重新组合形成新的数据子集,并在各数据子集上构建基分类器,实现不平衡数据的集成分类。仿真结果表明,该算法能够有效降低数据子集的不平衡比,提升集成学习中基分类器的差异性,在G-mean和F-measure1 2个评价指标下,分类性能优于或部分优于其他集成分类算法,有效提高了分类模型的分类精度和稳定性,为不平衡数据集的集成学习提供了新的研究思路。  相似文献   

4.
基于正域的属性约简算法是利用"下近似"思想,仅考虑被正确区分样本数的约简算法。借鉴"上近似"的思想,利用"邻域信息粒"的概念定义了区分对象集,探讨了其基本性质,并提出了基于区分对象集的属性重要度度量及启发式属性约简算法。该约简算法既考虑信息决策表的相对正域,也考虑以核属性为启发信息逐个增加条件属性时对边界域样本的影响。通过实例分析,说明了所提算法的可行性,并且以6个UCI标准数据集为实验对象,与基于正域的属性约简算法进行对比实验。实验结果说明,采用提出的约简算法得到的约简属性集,与基于正域的属性约简算法相比,在进行分类任务时的分类精度能够保持不变或有所提高。  相似文献   

5.
阐述邻域粗糙集和邻域信息熵的基本定义及性质,为避免数值属性信息系统属性约简过程中,属性离散化造成特征信息的丢失,提出一种新的基于邻域信息熵度量数值属性约简算法。扩展邻域信息系统核属性集生成约简属性集,邻域信息熵度量不仅关注约简属性集正域变化,而且考察负域样本空间约简属性邻域等价类在决策属性划分的分布,具备更好的邻域关系度量细粒度。实验表明,对比邻域粗糙集近似度量、邻域有效信息率度量、邻域软间隔度量的属性约简方法,该算法能有效进行邻域信息系统属性约简的同时,也保持了约简属性集更好的分类精度。  相似文献   

6.
Paw lak粗糙集模型没有对正域、边界域和负域赋予语义,不能进行再决策,而三支决策对边界域赋予了新的语义,可以对边界域做出进一步刻画,对于边界域的进一步划分,依据属性的重要性,使满足条件的样本划入再决策域,不满足条件的样本继续保留在边界域中,降低了边界域样本处理的失误率.本文在对概率粗糙集模型、三支决策粗糙集的理论、贝叶斯理论的决策过程和决策粗糙集模型进行研究的基础上,提出了一种三支决策与决策粗糙集融合模型,与Paw lak-三支决策模型相比,其划分损失更小,处理结果更优.该模型运用三支决策理论对决策粗糙集的边界域赋予延迟决策的语义,对于延迟决策再运用三支决策理论进行迭代操作,对边界域样本进一步处理.在迭代的过程中,依据属性的重要程度将属性排序,从而客观的得到迭代过程中每次优先依据哪个属性进行划分.实验结果表明,该模型比单一运用决策粗糙集模型进行决策代价小,三支决策通过迭代对边界域处理的正确率有所提高,这为准确决策提供了一种新的方法.  相似文献   

7.
将决策粗糙集与代价敏感学习相结合,提出了一种基于决策粗糙集的代价敏感分类方法。依据决策粗糙集理论和属性约简方法,对待预测样本分别计算最优测试属性集,使得样本在最优测试属性集上计算的分类结果具有最小误分类代价和测试代价,依此给出样本的最小总代价分类结果。针对全局最优测试属性集求解过程中计算复杂度高的问题,提出了局部最优测试属性集的启发式搜索算法。该算法以单个属性对降低总分类代价的贡献率为启发函数,搜索各样本的局部最优测试属性集,并输出在局部最优测试属性集上样本的代价敏感分类结果。在UCI数据上的实验分析显示,所提算法有效地降低了分类结果的总代价和测试属性个数,使得样本分类结果同时具有较小的误分类代价和较小的测试代价。  相似文献   

8.
构造性覆盖算法(constructive covering algorithm,CCA)三支决策模型在学习过程中根据样本分布特征,自动产生正域、负域和边界域。该模型为边界域样本处理问题提供了新的思路。重点讨论了基于CCA的三支决策的边界域样本处理问题。对边界域样本处理提出了两种决策方案:一种为处理全部的边界域样本,给出了距中心最近原则、距边界最近原则、万有引力原则3种方法;另一种为处理部分的边界域样本,即只对满足一定条件的边界域样本作进一步的划分,这样使不满足条件的边界域样本仍保留在边界域,提高了边界域样本处理的正确率。用十字交叉法在5组数据集上对这两种决策方案进行了对比,实验结果表明,处理部分边界域样本时正确率更高,效果更好。  相似文献   

9.
方莲娣    张燕平    陈洁    王倩倩  刘峰    王刚   《智能系统学报》2017,12(3):293-300
基于三支决策理论,提出了一种基于三支决策的非重叠社团划分算法(N-TWD),该方法将初始聚类形成的重叠社团进行二次划分以形成最终的非重叠社团。N-TWD算法首先利用层次聚类形成有重叠的社团结构,将两个存在重叠的社团的左边社团中非重叠部分定义为正域,右边社团中非重叠部分定义为负域,而两个社团的重叠部分定义为边界域。然后,针对边界域中的节点,分别计算边界域中节点与正域和负域的社团归属度BPBN进行二次划分。对于二次划分后仍然留在边界域中的节点将利用投票的方法决定其最终归属,最终获得非重叠的社团结构。本文选取4个经典社交网络数据集和1个真实世界数据集对N-TWD算法进行了验证,相比较其他社团划分算法(GN、NFA、LPA、CACDA),N-TWD时间复杂度较低,总体获取的社团模块度值更高。  相似文献   

10.
张越兵  苗夺谦  张志飞 《计算机科学》2017,44(12):188-193, 215
文本情感分类是一项重要的自然语言处理任务,具有广泛的应用场景。以往的情感分类方法过于注重分类准确率,忽略了训练和分类过程的时间代价,而且使用的特征大多为词袋特征,存在维度高、可解释性差的缺点。针对这些问题,将粒计算的思想运用于文本数据的三层粒度结构(词-句-篇章),提出一种具有强可解释性的文本情感分类特征——SSS(Sentence-level Sentiment Strength)特征,SSS特征每一维度代表文章中每个句子的情感强度值;同时,在分类过程中,利用三支决策方法将待分类对象划分为3个区域,位于正域和负域的对象直接划分至正类和负类中,使用SVM(Support Vector Machine)+SSS特征对位于边界域的对象做进一步分类。实验结果显示,SSS特征由于自身的低维特性,能够大大降低特征提取和模型训练过程所耗费的时间成本,结合了三支决策方法的SVM能够进一步提高分类准确率,而且三支决策方法可以减少分类过程所耗费的时间。  相似文献   

11.
为了解决文本情感分析的代价不平衡及静态决策中分类代价偏高的问题,文中考虑动态决策过程中产生的误分类代价和学习代价,构建基于序贯三支决策的代价敏感文本情感分析方法.首先,为了构建多粒度动态决策环境,提出针对文本数据的粒化模型.然后,引入序贯三支决策模型,构建动态文本分析框架.最后,利用真实文本评论数据集验证文中方法的有效性.实验表明文中方法在提高分类质量的同时,明显降低整体的决策代价.  相似文献   

12.
Rough set reduction has been used as an important preprocessing tool for pattern recognition, machine learning and data mining. As the classical Pawlak rough sets can just be used to evaluate categorical features, a neighborhood rough set model is introduced to deal with numerical data sets. Three-way decision theory proposed by Yao comes from Pawlak rough sets and probability rough sets for trading off different types of classification error in order to obtain a minimum cost ternary classifier. In this paper, we discuss reduction questions based on three-way decisions and neighborhood rough sets. First, the three-way decision reducts of positive region preservation, boundary region preservation and negative region preservation are introduced into the neighborhood rough set model. Second, three condition entropy measures are constructed based on three-way decision regions by considering variants of neighborhood classes. The monotonic principles of entropy measures are proved, from which we can obtain the heuristic reduction algorithms in neighborhood systems. Finally, the experimental results show that the three-way decision reduction approaches are effective feature selection techniques for addressing numerical data sets.  相似文献   

13.
基于已有软件缺陷数据,建立分类模型对待测软件模块进行预测,能够提高测试效率和降低测试成本。现有基于机器学习方法对软件缺陷预测的研究大部分基于二支决策方式,存在误分率较高等问题。本文针对软件缺陷数据具有代价敏感特性且软件度量取值为连续值等特性,提出了一种基于邻域三支决策粗糙集模型的软件缺陷预测方法,该方法对易分错的待测软件模块作出延迟决策,和二支决策方法相比,降低了误分类率。在NASA软件数据集上的实验表明所提方法能够提高分类正确率并减小误分类代价。  相似文献   

14.
代价敏感分类区别于一般分类方法,更关注高代价类别的分类准确性而容忍全局分类的准确性。三支决策作为一种代价敏感分类问题的解决思路,缺乏对序列数据的支持。结合LSTM模型处理序列数据的能力,提出一种使用三支决策(3WD)改进的序列数据分类方法。方法经过LSTM网络对原数据进行粗分类;对分类结果进行整体代价评估;最终,对高风险分类进行延迟或拒绝处理。方法在4个数据集上进行了测试,并进行了2组对比实验。实验结果表明:本文方法在不改变LSTM模型的情况下,对LSTM模型的分类结果进行了代价区分。  相似文献   

15.
现有三支决策主要针对各类完备信息系统或不完备单一型信息系统进行研究,而现实应用领域中数据往往呈现不完备性和复杂性等特征,为此,构建面向不完备混合决策系统的三支决策模型与规则获取方法。首先,计算不完备混合数据的完备邻域容差类,并将其代替等价类计算三支决策模型的条件概率;然后,根据扩展的损失函数区间概念获取各对象在乐观、折中和悲观决策下的不同阈值,进而针对不完备混合决策系统构造三种决策风险下的三支决策模型。最后,通过理论分析和医疗诊断实例详细分析了算法的有效性和可解释性,并通过实验比较和分析可知,所构模型较其他已有模型的分类过程更加合理有效,同时该模型也扩充了三支决策模型和知识发现的理论与应用研究。  相似文献   

16.
向伟  王新维 《计算机科学》2020,47(5):103-109
不平衡数据分类是一种重要的数据分类问题。对于不平衡数据中规模较小的类,传统的分类算法的分类效果较差。对此,提出一种多类邻域三支决策模型的不平衡数据分类算法。首先,将传统的三支决策在混合数据和多个类的情形下进行推广,提出了混合数据的多类邻域三支决策模型;然后,在该模型中给出一种自适应代价函数的设定方法,并基于该方法提出了多类邻域三支决策模型的不平衡数据分类算法。仿真实验的结果表明,所提出的分类算法对于不平衡数据具有更好的分类性能。  相似文献   

17.
杨浩  王宇  张中原 《计算机应用》2019,39(7):1883-1887
为了解决不均衡数据集的分类问题和一般的代价敏感学习算法无法扩展到多分类情况的问题,提出了一种基于K最近邻(KNN)样本平均距离的代价敏感算法的集成方法。首先,根据最大化最小间隔的思想提出一种降低决策边界样本密度的重采样方法;接着,采用每类样本的平均距离作为分类结果的判断依据,并提出一种符合贝叶斯决策理论的学习算法,使得改进后的算法具备代价敏感性;最后,对改进后的代价敏感算法按K值进行集成,以代价最小为原则,调整各基学习器的权重,得到一个以总体误分代价最低为目标的代价敏感AdaBoost算法。实验结果表明,与传统的KNN算法相比,改进后的算法在平均误分代价上下降了31.4个百分点,并且代价敏感性能更好。  相似文献   

18.
三支决策基于代价敏感,通过引入延迟决策,在信息不完备的情况下,能够使分类更加合理。考虑具有混合属性特征的决策信息系统优化决策问题,在混合属性信息系统上定义了邻域关系,构建了基于邻域关系的决策粗糙集模型。在此基础上将其应用于痛风临床诊断决策问题,运用多次迭代学习的方法对痛风数据进行分类。与SVM(Support Vector Machine)、RF(Random Forest)、LR(Logistic Regression)分类算法进行对比,证明了该方法的优越性。根据分类结果发现因素之间的内在联系,获取分类规则,探究痛风与肝功、肾功、血脂、血糖的相关性,为痛风成因研究和诊断治疗提供知识支持和决策支持。  相似文献   

19.
目前,大多数聚类方法是二支聚类,即对象要么属于一个类,要么不属于一个类,聚类的结果必须具有清晰的边界。然而,将某些不确定的对象强制分配到某个类中将降低聚类结果的结构和精度。三支聚类是一种重叠聚类,它采用核心域和边界域来表示每个类别,较好地处理了具有不确定性对象的聚类问题。提出了一种使用样本邻域将二支聚类转化为三支聚类的方法。该方法利用二支聚类的结果和每个类中元素的邻域是否完全包含在该类中来对集合进行收缩,同时利用不在该类中的元素的邻域是否与该类有交集来进行扩张。收缩的区域称为核心域,扩张域和核心域的差集称为边界域。在UCI数据集上的实验结果显示,该方法在提高聚类结果的结构和F1值方面有较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号