期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

凌方王建东《数据采集与处理》2002,17(2):179-182

提出了一种基于聚类方法、结合粗集理论的连续属性离散化方法。在粗集理论中有一个重要概念：属性重要度（Attribute significance)，它常用来作为生成好的约简所采用的启发式评价函数。受此启发，在连续属性离散化方法中可把它用于属性选择，即从已离散化的属性集中选择出属性重要度最高的属性，再把它和待离散化的连续属性一起进行聚类学习，得到该连续属性的离散区间。文中介绍了该方法的算法描述，并通过实验与其他算法进行了比较。实验结果表明，由于这种方法在离散化过程中结合了粗集理论的思想,考虑了属性间的相互影响，从而产生了比较合理的划分点，提高了规则的分类精度。相似文献

2.

基于LVQ神经网络的连续属性离散化方法

南书坡韩利华程聪郭战杰《福建电脑》2014,(11):116-117

随着知识发现和数据挖掘的迅速发展,出现了很多的数据挖掘方法,这些方法很多都依赖于离散的数据,连续属性的离散化是数据分析预处理中的一项重要内容,在数据挖掘、机器学习等领域中具有重要作用。然而,在现实世界数据库中,存在着大量的连续值属性。因此,常常需要对连续值属性进行离散化本文利用LVQ神经网络能够找到连续属性断点的功能,提出了一种基于LVQ神经网络的离散化方法,从而实现了对连续属性的离散化。算法分析和实验证明,本算法是切实可行的。相似文献

3.

基于竞争型网络的连续属性离散化方法

冯乃勤南书坡史进玲王伟李素娟《计算机应用与软件》2010,27(6):223-225

连续属性的离散化是粗糙集理论的主要问题之一.针对粗糙集理论只能处理离散数据的局限性,提出基于属性决策表和竞争型网络的连续属性离散化方法.首先使用条件属性与决策属性之间的决策关系来度量条件属性的重要性,并据此对条件属性按照重要性由小到大排序,然后利用竞争型网络分类功能找到连续属性的断点,从而实现了对连续属性的离散化.算法分析和实验证明算法是切实可行的. 相似文献

4.

一种基于粗糙集理论的连续属性离散化新算法* 总被引：3，自引：0，他引：3

李慧闫德勤韩丽《计算机应用研究》2010,27(1):77-78

粗糙集理论中要求离散化保持原有决策系统的不可分辨关系,但以往的一些算法在离散过程中会使近似精度控制在可以接受的范围,即允许一定的错分。针对此不足,在保证决策属性绝对不改变的情况下,提出一种新的区间拆分方法,更合理有效地对连续属性进行离散化。实验通过C4.5和支持向量机分别对离散化后的数据进行识别与分类预测,实验结果证明了算法的有效性。相似文献

5.

基于小生境离散粒子群优化的连续属性离散化算法 总被引：1，自引：0，他引：1

许磊张凤鸣靳小超《数据采集与处理》2008,23(5)

分析了基于粗糙集理论的连续属性离散化的实质,在此基础上提出了一种基于小生境离散粒子群优化的启发式全局离散化算法。该算法结合粗糙集理论,将决策属性支持度作为决策表整体分类能力的度量,然后利用离散粒子群优化算法,以最小断点集和最大决策属性支持度为优化目标,在保持决策表分类能力不变的情况下,通过粒子的迭代寻求最优值;同时为了避免粒子在迭代过程中的早熟收敛问题,引入小生境共享机制,加强了离散粒子群算法的全局搜索能力。通过实验将本文算法与其他算法进行了比较,结果表明采用本文算法得到了较少的断点数,提高了规则的分类正确率,验证了该算法的有效性和稳定性。相似文献

6.

决策表连续属性离散化的一种方法 总被引：1，自引：0，他引：1

下载免费PDF全文

王柯朱启兵崔宝同《计算机工程与应用》2008,44(30):148-149

提出了一种基于区间数据分布特征的决策表连续属性离散化的方法。方法在断点的选择上考虑了属性值的出现频率,在区间内的一致性和区间之间的差异性基础上,利用条件信息量作为反馈信息合并区间。通过实验分析表明了算法的有效性,能保持决策表较高的分类能力,提高约简效率。相似文献

7.

一种基于进化算法的连续属性离散化方法 总被引：5，自引：0，他引：5

姚望舒商琳陈兆乾《计算机应用与软件》2005,22(3):37-39,85

连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够起到简化知识和描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题,本文把连续属性值离散化问题作为一种约束优化问题,采用遗传算法来获得最优解,并针对离散化问题设计了相应的编码方式、交叉算子和变异算子。实验结果表明,采用遗传算法求解连续属性值最优断点集合是可行的。相似文献

8.

一种改进的连续属性离散化方法

杨平先孙兴波干树川《自动化与仪器仪表》2005,(4):4-6

连续属性离散化在数据分析的数据预处理中非常重要。本文提出一种基于类信息熵的有监督连续属性离散化方法。该方法运用了粗集理论中决策表的一致性水平的概念。算法分成两部分:首先根据决策表的一致性水平动态调整聚类类别数目,运用分级聚类形成初始聚类。然后,基于类信息熵合并相邻区域,减少区间数目。实践证明该方法是可行的。相似文献

9.

一种连续属性值域划分的离散化新方法*

陈爱萍张光会《计算机应用研究》2012,29(4):1307-1310

提出一种连续属性值域划分的离散化新方法,该方法定义一个新的离散化函数,依据类与属性之间的相互依赖关系选择最优的离散区间列表;此外,采用变精度粗糙集理论合理地控制数据离散化产生的信息丢失,减少分类错误。仿真结果和统计分析表明,提出的方法有较好的C5.0决策树分类能力。相似文献

10.

一种改进的连续属性模糊离散化方法

焦冬艳于津张华《现代计算机》2011,(Z1):20-22,28

连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。相似文献

11.

一种改进的连续属性模糊离散化方法

焦冬艳于津张华《电脑与微电子技术》2011,(1):20-22,28

连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法：根据正态分布特点采用正态离散化算法（Norm-D算法）,使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。相似文献

12.

一种新的基于连续属性离散化的属性约简方法* 总被引：1，自引：0，他引：1

胡德敏冯科峰《计算机应用研究》2009,26(1):64-65

通过将连续属性离散化和属性约简结合起来,首先对连续型的属性列进行离散化,得到新的决策表;然后再对新的决策表作属性约简,解决了属性约简过程中由于不考虑连续属性而无法求出准确约简属性的问题。最后通过具体案例表明了该方法具有较好的实用性、有效性,可以很好地应用在含有大量连续属性的数据挖掘项目中。相似文献

13.

一种新的用于连续值属性离散化的约简算法 总被引：4，自引：0，他引：4

刘震宇郭宝龙杨林耀《控制与决策》2002,17(5):545-549

针对在Nguyen和Skowron的离散化算法中进行启发式约简时会出现某些属性不能进行离散化问题，以及在无核数据集中启发式约简算法计算量比较大等问题，在粗糙集理论和属性频率函数的基础上给出一个新概念－候选核，并提出一种新的用于连续值属性离散化的约简算法－基于候选核的启发式约简算法（简称BCC）。该算法可以寻找到能对所有属性进行离散化的约简，实验表明，所提出的BCC算法能提高大数据集的离散化效果。相似文献

14.

一种基于熵的连续属性离散化算法 总被引：6，自引：0，他引：6

贺跃郑建军朱蕾《计算机应用》2005,25(3):637-638

连续属性离散化的关键在于合理确定离散化划分点的个数和位置。为了提高无监督离散化的效率,给出一种基于熵的连续属性离散化方法。该方法利用连续属性的信息量 (熵 )的特性,通过对连续属性变量的自身划分,最小化信息熵的减少和区间数,并寻求熵的损失与适度的区间数之间的最佳平衡,以便得到优化的离散值。实验表明该算法是行之有效的。相似文献

15.

一种基于云模式连续型属性离散化的算法

皋军王建东《计算机应用》2004,24(2):135-137

在数据挖掘研究过程中,对连续型属性一般要进行离散化。特别是在模糊数据挖掘中,还要对离散化的区间进行模糊处理。文中依托云模式,并结合粗糙集理论提出一种新的连续型属性离散化算法。相似文献

16.

Rough Set中基于聚类的连续属性离散化方法 总被引：3，自引：0，他引：3

韩秋明赵轶群《计算机工程》2003,29(4):81-82,87

分析了一些RoughSet中连续属性离散化的方法，指出了其中的某些不足，并给出了一个基于聚类的连续属性离散化的方法，对当前的论域中的例子根据相似性进行聚类，对每个聚类在各属性轴上的投影的边界设离散断点。该方法考虑了各属性之间的相关性，能得到比较合理的离散结果。相似文献

17.

多变量连续属性离散化方法 总被引：1，自引：0，他引：1

侯居茌梁莹任长志《模式识别与人工智能》2011,24(6):792-797

目前很多离散化方法仅考虑单个变量,不能得到最优的离散化方案。文中提出一种多属性关系的数据离散化方法。凭借概率的模型选择和最小描述长度原理,获得多变量离散化衡量标准,基于该标准提出一种有效的启发式算法来寻找最好的离散化方案。对UCI数据集进行分类预测,实验结果表明该方法提高Nave贝叶斯分类器的学习精度。相似文献

18.

一种实现分类问题中连续值属性离散化的方法 总被引：1，自引：0，他引：1

刘东荣王熙照《计算机工程与应用》2002,38(23):108-109,247

在处理分类问题时,通常首先要对连续值属性值进行离散化,用传统的方法难以找到较好的区间划分,该文采用基于变长染色体的遗传算法,并引入淘汰机制,较好地解决了这一问题。相似文献

19.

基于信息论的连续属性离散化

徐如燕鲁汉榕郭齐胜《计算机工程与设计》2002,23(2):62-64

使用信息论的方法进行连续属性的离散化，引入Hellinger偏差HD（Hellinger Divergence)作为每个区间对决策的信息量度量，从而定义切分点的信息熵，最终的离散化结果是使各区间的信息量尽可能平均，分析了HD度量在两种离散化方法中的作用，说明它在划分算法中运用比较理想，而在归并算法中则有局限。相似文献

20.

一种基于信息论的决策表连续属性离散化算法 总被引：2，自引：0，他引：2

岳海亮闫德勤《计算机科学》2010,37(4):231

连续属性离散化方法对后续阶段的机器学习和数据挖掘过程有着重要的意义。提出一种新的针对决策表的离散化算法,在该算法中,首先将信息熵用作判断标准,从候选断点集中选择合适的断点,然后删除一些冗余的断点来优化离散结果,在删除过程中为了尽可能保证决策表分类能力不变,使用不一致率对该过程进行控制。最后选取多组实验数据,使用当前流行的分类算法——支持向量机(SVM)对离散化后的数据进行分类预测,并与其它离散算法进行对比,结果表明本算法是有效的。相似文献