首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
由于客观世界的复杂性,信息缺失、不确定信息是普遍存在的,因此数据库也不可避免地存在信息缺失的问题,本文主要针对数据库中空值缺失问题进行研究和改进。该文采用模糊聚类算法,使用MATLAB编程求解模糊相似矩阵和模糊等价矩阵,对原始数据分簇。然后根据包含空值的元组的其它属性将其划归到最相似的簇中,最后再用线性回归法对空值进行估计。  相似文献   

2.
由于客观世界的复杂性,信息缺失、不确定是普遍存在的。数据库作为表达现实世界的一种工具,使用空值来表达信息缺失的现象。针对关系数据库中的空值问题,提出一种基于多表关联的多空值估计方法。该方法首先以尽可能少地引入误差的原则确定估计每一列空值的顺序;然后对每一列空值先采用本表的信息进行估计,当预测误差大于给定阈值时,根据该表与其他表的关系形式选择不同的模式引入多表信息来提高预测的准确度。实验结果表明该方法估计空值的效果与其他方法相比有较高的准确率。   相似文献   

3.
周燕  万里勇 《计算机仿真》2021,38(4):159-163
对传统多源模糊信息系统存在空值估算准确性差、数据不完备等问题,提出一种基于粗糙集理论的空值估算方法.对多源模糊系统中数据缺失、遗漏等情况进行分析,通过模糊覆盖法获得不完备信息的信任函数;利用粗糙集理论中不可分辨的等价关系、相容关系通过四元组属性计算,得到近似的拟合函数;通过属性约简处理获得关系表中与空值相关的属性值,解决系统中的空值估算问题.实验证明,经过多个数据集和数据表相比表明,所提方法得到的估算结果具有更高的准确率和有效性.  相似文献   

4.
传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。  相似文献   

5.
实时攻击数据集含有缺失属性和大量非攻击样本,呈现属性分布不完全和类分布偏斜的特点,不利于聚类分析。针对此问题,提出了一种面向不完全攻击数据集的两阶段聚类算法。算法首先利用标准2-类支持向量机分离数据集中的非攻击样本,使类分布均衡。提出一种不完全样本间的距离度量方法,将该方法应用于最近邻间隔模糊C均值算法实现聚类。实验结果表明,与现有算法相比,提出的算法有效地提高了聚类准确率。  相似文献   

6.
数据缺失对聚类算法提出了挑战,传统方法往往采用均值或回归方法将不完整数据进行填充,再对填充后的数据进行聚类.为解决均值填充和回归填充等方法在数据缺失比率增大时填充精度以及聚类效果变差的问题,提出一种新的不完整数据相似度计算方法.以期望互信息为依据对数据集中的属性排序,充分考虑了数据集中与位置相关的属性值特征,以数据集本身元素作为缺失值填充的来源,对排序后的不完整数据集进行相似度填充计算,最后采用基于局部密度的聚类算法进行聚类.利用UCI机器学习库中的数据集验证本文填充聚类算法,实验结果表明,当数据集中缺失值增多时,算法对缺失值的容忍性较好,对缺失元素的恢复能力较强,填充精度以及最终聚类结果方面均表现良好.本文填充计算相似度的方法考虑数据集的每个属性值来对缺失值逐个填充,因而耗时较多.  相似文献   

7.
基于核模糊聚类的多模型LSSVM回归建模   总被引:6,自引:1,他引:5  
李卫  杨煜普  王娜 《控制与决策》2008,23(5):560-562
针对大规模数据采用单模型回归存在精度差和计算量较大的问题,提出一种基于核模糊聚类的多模型最小二乘支持向量回归建模方法.该方法首先使用基于条件正定核的模糊C均值聚类算法对数据集做出聚类划分;然后针对每个聚类做最小二乘支持向量回归估计;同时根据每个聚类内数据分布的特征,给出了一种简单的核参数选择方法.利用数值仿真实验进行非线性函数估计,实验结果表明了所提出的方法具有良好的精度和泛化能力.  相似文献   

8.
针对海量电信数据的聚类问题,利用粗集中的知识简化方法,减少属性的数量,提取主要的特征属性,并结合性能优良的模糊Kohonen聚类网络,提出了一种新的电信欺诈行为的检测模型,采用Microsoft SQL2005和VC++6.0技术,利用电信运营商提供的真实数据对该模型进行验证,实验结果表明,基于粗集神经网络方法提出的模型快速有效且具有较高的准确率。  相似文献   

9.
一般空间模糊聚类算法没有区分各属性之间的不平衡性和讨论分类数何时为最佳,针对这一问题,提出了一种加权空间模糊动态聚类算法。该算法首先利用层次分析法得到各属性的权值;然后将权值与空间模糊动态聚类法相结合;最后利用概率统计中的F-分布来确定最佳分类,以提高空间模糊聚类算法的智能性。将文中算法与基于模糊等价关系的传递闭包方法进行比较,试验表明,该算法聚类准确率要明显高于未加权的模糊聚类算法。  相似文献   

10.
为对包含数值和名词属性的混合数据集进行定性组合聚类分析,提出一种基于模糊优势关系的粗糙聚类定性组合算法f-QRD。根据混合数据集的不同属性分别进行聚类并计算类簇之间的模糊优势关系,为避免组合后的类簇碎片过多,对模糊优势关系差值较小的类簇进行合并处理。实验结果表明,与QRD算法相比,f-QRD算法能够有效减少类簇数目并提高聚类准确率。  相似文献   

11.
In this paper, we present a new method for estimating null values in relational database systems using automatic clustering and multiple regression techniques. First, we present a new automatic clustering algorithm for clustering numerical data. The proposed automatic clustering algorithm does not need to determine the number of clusters in advance and does not need to sort the data in the database in advance. Then, based on the proposed automatic clustering algorithm and multiple regression techniques, we present a new method to estimate null values in relational database systems. The proposed method estimating null values in relational database systems only needs to process a particular cluster instead of the whole database. It gets a higher average estimation accuracy rate than the existing methods for estimating null values in relational database systems.  相似文献   

12.
徐盈盈  钟才明 《计算机应用》2014,34(8):2184-2187
模式识别与机器学习的一些算法只能处理离散属性值,而在现实生活中的很多数据具有连续的属性值,针对数据离散化的问题提出了一种无监督的方法。首先,使用K-means方法将数据集进行划分得到类别信息;然后,应用有监督的离散化方法对划分后的数据离散化,重复上述过程以得到多个离散化的结果,再将这些结果进行集成;最后,将集成得到的最小子区间进行合并,这里根据数据间的邻居关系选择优先合并的维度及相邻区间。其中,通过数据间的近邻关系自动寻求子区间数目,尽可能保持其内在结构关系不变。将离散后的数据应用于聚类算法,如谱聚类算法,并对聚类后的效果进行评价。实验结果表明,该算法聚类精确度比其他4种方法平均提高约33%,表明了该算法的可行性和有效性。通过该算法得到的离散化数据可应用于一些数据挖掘算法,如ID3决策树算法。  相似文献   

13.
传统的K-modes算法采用简单的属性匹配方式计算同一属性下不同属性值的距离,并且计算样本距离时令所有属性权重相等。在此基础上,综合考虑有序型分类数据中属性值的顺序关系、无序型分类数据中不同属性值之间的相似性以及各属性之间的关系等,提出一种更加适用于混合型分类数据的改进聚类算法,该算法对无序型分类数据和有序型分类数据采用不同的距离度量,并且用平均熵赋予相应的权重。实验结果表明,改进算法在人工数据集和真实数据集上均有比K-modes算法及其改进算法更好的聚类效果。  相似文献   

14.
A new approach for estimating null value in relational database   总被引:1,自引:0,他引:1  
In general, a database system will not operate properly if it exist some null values of attributes in the system. In this paper, we propose a new approach to estimate null values in relational database, which utilize other clustering algorithm to cluster data, and use fuzzy correlation and distance similarity to calculate the correlation of different attribute. For verifying our method, this paper utilize mean of absolute error rate (MAER) as evaluation criterion to compare with other methods; it is shown that our proposed method proves importance than the existing methods for estimating null values in relational database systems.  相似文献   

15.
属性约简是粗糙集理论中的重要问题。许多学者针对邻域粗糙集提出多种属性约简方法,包括应用最为广泛的启发式算法。在多半径邻域粗糙集的基础上,针对当前启发式约简算法往往会包含一定冗余属性的缺陷,提出一种融合属性权重影响的改进约简运算方法,通过根据各属性权值大小设置阈值使得约简结果能够消除冗余属性。实验选取UCI的数据集与当前几种常用启发式约简算法进行比较分析。实验结果表明,所提出的属性约简方法能够得到更优的约简集合,同时更大程度地保留了决策表本身的知识信息,具有较高的分类能力。  相似文献   

16.
Since in the real world, it often occurs that information is missing, database systems clearly need some facilities to deal with missing data. With respect to traditional database systems, the most commonly adopted approach to this problem is based on null values and three valued logic. This paper deals with the semantics and the use of null values in fuzzy databases. In dealing with missing information a distinction is made between incompleteness due to unavailability and incompleteness due to inapplicability. Both the database modelling and database querying aspects are described. With respect to attribute values, incompleteness due to unavailability is modelled by possibility distributions, which is a commonly used technique in the fuzzy databases. Domain specific null values, represented by a bottom symbol, are used to model incompleteness due to inapplicability. Extended possibilistic truth values are used to formalize the impact of data manipulation and (flexible) querying operations in the presence of these null values. The different cases of appearances of null values in the handling of selection conditions of flexible database queries are described in detail.  相似文献   

17.
We present a method to learn maximal generalized decision rules from databases by integrating discretization, generalization and rough set feature selection. Our method reduces the data horizontally and vertically. In the first phase, discretization and generalization are integrated and the numeric attributes are discretized into a few intervals. The primitive values of symbolic attributes are replaced by high level concepts and some obvious superfluous or irrelevant symbolic attributes are also eliminated. Horizontal reduction is accomplished by merging identical tuples after the substitution of an attribute value by its higher level value in a pre-defined concept hierarchy for symbolic attributes, or the discretization of continuous (or numeric) attributes. This phase greatly decreases the number of tuples in the database. In the second phase, a novel context-sensitive feature merit measure is used to rank the features, a subset of relevant attributes is chosen based on rough set theory and the merit values of the features. A reduced table is obtained by removing those attributes which are not in the relevant attributes subset and the data set is further reduced vertically without destroying the interdependence relationships between classes and the attributes. Then rough set-based value reduction is further performed on the reduced table and all redundant condition values are dropped. Finally, tuples in the reduced table are transformed into a set of maximal generalized decision rules. The experimental results on UCI data sets and a real market database demonstrate that our method can dramatically reduce the feature space and improve learning accuracy.  相似文献   

18.
在传统K-中心点聚类算法中,相似性一般仅仅用距离来进行度量,这种度量方法均基于对象属性之间是独立同分布的,但大多数真实数据对象属性之间都相关联的,因此,本文将引用非独立同分布计算公式,对传统距离计算相似度方法进行替换。同时,由于此公式会依据属性值的频率来进行计算,但数值型数据对于频率并不敏感,因此,本文在引入公式之前,将数值型数据按属性列进行聚类与替换。实验结果表明,本文方法可以提高算法的聚类精度。  相似文献   

19.
对具有连续属性值的信息系统的属性约简是粗糙集理论的研究热点之一。区别于传统通过连续属性离散化方法定义的等价关系,提出利用自适应的模糊C均值聚类的初步划分能力定义一种相似关系以及其自适应形式。基于该相似关系定义的粗糙集模型较好地排除噪声数据。提出正域与非正域定义以及从中导出的一种重要度以指导属性约简。与现有方法的比较实验表明该方法在属性约简上具有有效性和稳定性以及约简结果的合理性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号