首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
由于数据随时间和空间不断更新,很多基于粗糙集的增量方法被提出。然而,动态数据上基于模糊粗糙集的特征选取(也称属性约简)更新的研究较少,特别是连续型动态数据上的增量特征选取。为了解决这个问题,提出适用于连续型数据的基于模糊粗糙集的增量属性约简算法。首先提出模糊粗糙基本概念的增量机制,如模糊正域的增量机制。只有部分示例在已有属性约简上的辨识能力不足,即对于模糊正域来说,存在一个关键示例集。增量约简算法基于已有数据上的约简结果,仅需要更新关键示例集中的示例,而非全部的论域。因而该增量算法在动态数据上能快速获得约简的更新。通过数值对比实验可以看出,增量算法比非增量算法在运行时间上有明显的优势。特别是对于高维数据集,增量算法可以大大地节省计算时间。  相似文献   

2.
为了快速提取源头数据、快速识别变化记录以及实现数据的快速增量提取,在剖析传统影子表法的工作原理上,提出基于MD5算法的影子表法的改进型线性算法,对对比表进行线性扫描,排除了不必要的回扫操作;同时通过MD5算法计算整条记录的"指纹",降低了字符串比对次数和时间,能够迅速识别出发生变化的记录。对所提出算法进行了应用测试,结果表明通过融入MD5算法后的影子表法提高了数据提取效率。基于影子表的增量提取方法是一种通用的增量捕获方法,能在任何数据库上实现;应用程序可以方便地在多种平台间移植,因此很适合解决异构数据库复制问题。  相似文献   

3.
时态数据库中增量关联规则的挖掘   总被引:6,自引:0,他引:6  
时态数据库(temporal database)中的时态数据是数据信息中重要的一类,此类数据中存在着大量未知的涉及数据的变化趋势及数据增量之间相互关系方面的知识.给出了时态数据库中的相邻关系(adjacency)和增量(increment)的定义,提出了基于定量属性离散化及编码化的增量关联规则的基本模型(model of discretization & code-based increment association rules);并针对时态数据库中的属性大多为连续定量属性的特性,比较了"部分完备法"(partial completeness)、基于分类信息熵的离散化(entropy-based discretization)、C4.5、基于粗集理论的全局离散化(rough sets-based full discretization)及其改进等多种定量属性的离散化方法,结合定性属性的挖掘算法,提出了具有时间约束的增量关联规则挖掘算法TIDM;最后,讨论了互斥属性集的概念、基本特性及处理互斥属性集的基本方法,对于诸如企业风险管理的管理决策等应用是十分有意义的.  相似文献   

4.
传感器技术发展促进各行各业产生了大量多源数据,且这些数据还在不断发生变化。当多源数据(分布信息系统)增加了一些属性后,传统约简算法需要重复计算数据且不能有效实现多源数据融合,导致计算动态多源数据约简花费时间较多,计算效率不高。为了克服传统约简算法的缺陷,设计了基于多源数据矩阵增量约简算法。介绍了一些分布信息系统的相关理论知识,给出了多源数据等价关系矩阵融合的计算方法。当多源数据增加了一些属性后,讨论了动态多源数据增量机制、融合方法及矩阵增量约简算法。分别利用矩阵增量和矩阵非增量约简方法对4个UCI数据集进行测试,测试结果验证了所提出的矩阵增量方法能够快速解决动态多源数据约简更新问题。  相似文献   

5.
曾小宁  肖水晶 《计算机应用》2007,27(6):1403-1406
引入扩展差别矩阵和扩展决策矩阵,提出了新的属性约简算法和增量更新算法,即基于扩展差别矩阵的属性约简算法和基于扩展决策矩阵的增量式规则提取算法,讨论了规则的增量更新算法。由于使用了增量更新算法和并行处理技术,从而提高了数据挖掘的效率,降低了时间复杂度。通过实验说明此算法是有效和可行的。  相似文献   

6.
针对现有应用数据挖掘技术的入侵检测系统存在实时性差、难以提取有效的特征属性、漏报和误报率较高等问题,论文设计了一种基于关联规则挖掘的分布式网络入侵检测模型,阐述了如何从原始审计数据中提取和构造属性集,并将模糊逻辑和增量更新技术结合以提高系统的检测效率、准确性和自适应能力.试验证明了该系统实现的可行性.  相似文献   

7.
一种基于功能性观点的神经网络规则提取方法   总被引:1,自引:0,他引:1  
研究一种基于功能性观点的神经网络规则提取方法.阐述特征排序与选择、连续属性离散化、训练样本产生、神经网络训练、示例样本产生及规则提取等关键算法.并用UCI数据和人群分类数据对方法进行分析和验证.结果表明本文方法的正确有效性.  相似文献   

8.
粗糙集对于学习分析系统的属性约减模型有着重要的研究意义和使用价值。针对教育大数据高维度、不完备、增量性等现状,提出了基于不完备决策表的差别信息增量更新算法,并结合树形结构对差别信息的高效存储和粗糙集的核属性概念,设计构建了MIX_FP树,实现高维属性的有效约减。实验结果验证了该算法具有较好的运行效率和空间性能,为教育大数据的属性约减提供了有效的方法,同时为基于粗糙集理论的属性约减算法研究和及其在学习分析领域的应用提供了新的研究思路。  相似文献   

9.
该文针对微博数据稀疏、内容关系难以计算的特点,提出了一种基于特征驱动的微博话题检测方法。提取有意义串作为微博动态特征,根据微博的结构关系计算特征的作者影响力和文档影响力,与内容统计特性共同构成特征的属性组,采用逻辑回归对特征建模,基于属性组对特征二元分类得到话题关键特征,将关键特征之间的互信息作为距离度量,改进最近邻聚类方法对关键特征聚类产生话题。微博数据实验表明,该方法有效提高了微博话题检测的准确率和召回率。  相似文献   

10.
增量式关联分类方法在病毒检测中的应用   总被引:2,自引:2,他引:0       下载免费PDF全文
传统关联规则挖掘算法主要基于支持度一可信度构架,时空开销的限制使其无法深入挖掘非频繁项集。171前对带类属性的关联分类增量学习研究较少,该文提出一种新的增量式关联分类方法,解决了带类属性数据的增量学习问题,在数据频繁更新时,实现有限时空开销下关联规则的快速提取和维护。实验结果表明,该方法能有效维护并更新关联规则,避免重复学习历史样本,保证分类模型的预测能力。  相似文献   

11.
提出了一种基于粗糙集和神经网络组合进行规则提取的方法。首先对初始数据集进行离散化,并利用粗糙集对决策表中的条件属性进行初步约简,然后利用神经网络对数据进行学习和预测,并通过删除网络不能分类的数据来对决策表中的噪声进行过滤,最后再由粗糙集值约简算法进行规则提取。实验表明,该方法相对于传统规则提取算法快速有效,在保留神经网络高鲁棒性的同时,避免了从神经网络中提取规则的困难。  相似文献   

12.
一种基于粗集理论的增量式属性约简算法   总被引:3,自引:1,他引:2  
增量式学习中,当信息系统的对象和决策属性不变而不断增加条件属性时,为了获得该系统的约简属性,一般方法是对决策表中的所有数据重新计算,但这种方法显然效率很低且不必要.在粗集理论的基础上,给出相对区分矩阵和绝对区分矩阵的定义,提出一种新的增量式属性约简算法.通过实例得知:由该算法得到的属性约简与传统算法得到的属性约简结果相同,但该算法不仅降低了时间复杂度而且其分类质量一般要优于原来的分类质量,所以该属性约简具有一定的实用价值.  相似文献   

13.
一种新的快速特征选择和数据分类方法   总被引:1,自引:0,他引:1  
针对数据分类问题提出一种新型高效的特征选择和规则提取方法.首先通过减少初始区间数量改进Chi-Merge离散化方法,再采用改进的Chi-Merge离散化连续型特征变量;特征离散化后,统计样本数据在每个特征子集划分下的频数表,并根据频数表计算数据不一致率,再利用顺序前向最优搜索的方法,快速确定特征数量由小到大的每一个最优特征子集;根据特征子集对应的数据不一致率差异最小化原则,完成特征个数最小化的最优特征子集筛选;根据最优特征子集的数据频数表,可直接提取数据分类规则.实验表明,快速提取的规则可获得较好的分类效果.基于该特征选择方法,提出一种面向分布式同构数据的快速分类模型,不但具有良好的分类效果,还支持对样本数据内容的隐私保护.  相似文献   

14.
赵洁  张恺航  董振宁  梁俊杰  徐克付 《计算机科学》2017,44(1):226-234, 258
提出一种全新的渐增式求核算法。首先基于全局等价类提出粗等价类概念并分析其性质,研究粗等价类下的求核与约简;深入研究3类粗等价类与核属性的内在联系,设计粗等价类下判断核属性的等价方法和渐增式求核方法,通过该方法可在一次增量计算中求得多个非核属性,从而设计双向剪枝策略;可从属性和实体双方面缩减计算域,无需遍历全部属性和实体,在无核情况下,剪枝策略仍然有效。设计多次Hash的属性增量划分算法来完成上述增量式计算,基于此给出完整的渐增式求核算法。最后用UCI中20个决策表及海量、超高维3类数据集从多个角度进行验证,实验结果证明了所提算法的有效性和高效性,其尤其适用于大型决策表,大多数情况下优于现有算法。算法可进一步作为新型约简和优化算法的基础。  相似文献   

15.
一种基于粗糙集理论的规则提取方法   总被引:3,自引:1,他引:2  
规则提取是实现智能信息系统的重要环节,也是一个难点。针对信息系统中的规则提取问题,提出了一种基于粗糙集的研究方法,并对规则提取涉及到的属性约简、属性值约简等问题进行了研究。根据粗糙集中的不可分辨关系建立了可辫识向量,以利用可辨识向量的加法法则运算求得核属性以及属性重要性,然后以核属性为基础、属性重要性为启发信息,求得信息表的一个属性约简。在此基础上,利用条件属性与决策属性之间的对应关系,对信息表中的每条规则通过删除冗余属性值来完成信息表的属性值约简,最终实现规则提取。数值实例和试验表明本算法是有效、可行的。  相似文献   

16.
粗集理论对股票时间序列的知识发现   总被引:3,自引:0,他引:3  
提出了将粗集理论应用于时间序列的知识发现。知识发现的过程包括时间序列数据预处理、属性约简和规则抽取三部分。其中数据预处理主要用信号处理技术清洗数据,然后将清洗后的时间序列按照某个变量的变化趋势进行分割,分割后每个时间段内的变化趋势不变,从而将时间序列转换成为一系列静态模式(每种模式代表一种行为趋势),从而去掉其时间依赖性。把决定各种模式的相关属性抽取出来组成一个适用于粗集理论的信息表,然后采用粗集理论对信息表进行属性约简和规则抽取,所得到的规则可以用于预测时间序列在未来的行为。最后将该方法用于股票的趋势预测,取得良好效果。  相似文献   

17.
将Rough集理论应用于规则归纳系统,提出了一种基于粗糙集获取规则知识库的增量式学习方法,能够有效处理决策表中不一致情形,采用启发式算法获取决策表的最简规则,当新对象加入时在原有规则集基础上进行规则知识库的增量式更新,避免了为更新规则而重新运行规获取算法。并用UCI中多个数据集从规则集的规则数目、数据浓缩率、预测能力等指标对该算法进行了测试。实验表明了该算法的有效性。  相似文献   

18.
自动视频分类中的数据预处理   总被引:2,自引:0,他引:2  
提出了一套视频数据采集、特征提取及数据预处理方法。介绍了视频数据的采集方式,并提出了一套可计算的视频特征属性,可以反映人们对不同的视频风格的典型特征的理解。给出了如何将这些提取的视频属性数据处理成适合于决策树分类、分类关联规则以及序列模式等数据挖掘技术适用的数据格式。  相似文献   

19.
As we know, learning in real world is interactive, incremental and dynamical in multiple dimensions, where new data could be appeared at anytime from anywhere and of any type. Therefore, incremental learning is of more and more importance in real world data mining scenarios. Decision trees, due to their characteristics, have been widely used for incremental learning. In this paper, we propose a novel incremental decision tree algorithm based on rough set theory. To improve the computation efficiency of our algorithm, when a new instance arrives, according to the given decision tree adaptation strategies, the algorithm will only modify some existing leaf node in the currently active decision tree or add a new leaf node to the tree, which can avoid the high time complexity of the traditional incremental methods for rebuilding decision trees too many times. Moreover, the rough set based attribute reduction method is used to filter out the redundant attributes from the original set of attributes. And we adopt the two basic notions of rough sets: significance of attributes and dependency of attributes, as the heuristic information for the selection of splitting attributes. Finally, we apply the proposed algorithm to intrusion detection. The experimental results demonstrate that our algorithm can provide competitive solutions to incremental learning.  相似文献   

20.
针对决策表存在数据删除的情况,首先提出决策表等价类链表存储结构,并引入基于该存储结构的简化决策表定义和基于简化决策表核属性定义,同时证明了该核属性与原始决策表核属性是等价的;然后,分别从删除指定对象和删除指定信息两个方面研究核属性更新理论,并给出相应的算法实现;最后,通过实例验证了所提出算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号