首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 53 毫秒
1.
本文从KDD(数据库中的知识发现)及EKDD(教育知识发现)的概念出发,通过对该技术在当前教育技术中相关应用的分析,总结并归纳了利用该技术在现代化教学过程中的几大功能,并提出了一些思考。  相似文献   

2.
数据挖掘中的特征选择及其算法研究   总被引:8,自引:5,他引:3  
特征选择是整个KDD处理过程中的重要一环,特征选择方法可以分为Filer和Wrapper两种模式。从特征选择算法的搜索方向、搜索策略、评价方法和停止标准4个方面、Filter和Wrapper两种模式以及几种有代表性的特征选择算法等,对数据挖掘中的特征选择及其相关技术进行了广泛的研究。  相似文献   

3.
KDD中的数据预处理技术──相关性分析   总被引:2,自引:0,他引:2  
数据库中的知识发现(KnowledgeDiscoveryinDatabase,简称KDD)是最近随着实际应用而发展起来的新兴计算机技术,广泛地用于智能处理系统和决策支持系统。伏而许多KDD算法常常强调方法和模型,把方法和模型建立在理想的数据来源上。这样就和实际应用存在一定的差距。现实数据的性质通常并不是很理想。因此有必要通过数据预处理来缩小KDD算法和实际应用之间的差距。该文提出了一种数据预处理方法──相关性分析:使数据的性质和KDD的目标更紧密地相连,形成正确的、容易理解的数据,用于后续的KDD分析。  相似文献   

4.
模糊聚类分析在KDD中的应用研究   总被引:3,自引:0,他引:3  
谢印宝 《计算机工程》2002,28(1):100-102
应用模糊聚类算法确定关键条件属性集,探索教师教学质量评估数据库中评估等级同评估项目之间的规则知识。  相似文献   

5.
KDD中的机器学习   总被引:1,自引:0,他引:1  
1.机器学习的发展机器学习是研究获取新知识、新技巧,重组已经出现的知识的计算方法,是人工智能中的基本问题,其理论基础涉及人工智能、统计学、脑知模型、适应性控制理论、心理学模型、进化模型(如遗传算法)。机器学习的研究开始于50年代,经过40来年的发展,已经取得  相似文献   

6.
KDD中知识评价的研究综述   总被引:11,自引:1,他引:11  
在知识发现过程中,通过挖掘算法产生大量的模式,但是大多数用户对此不感兴趣。如何对它们进行评价,选取出用户感兴趣的和有用的知识成为至关重要的一环,故对知识评价的研究具有重要的意义。首先分析了评价过程与知识发现的结合方式;针对评价的综合度量标准(感兴趣度),从客观性和主观性两个方面分别进行了介绍;并针对因果关联规则概述了我们提出的一种新的评价方法。  相似文献   

7.
在分析了金融事务中进行金融欺诈的现象后,对传统的金融欺诈检测方法进行了分析,并在此基础上提出了一种利用数据挖掘方法进行金融欺诈检测的模型,并在此基础上利用该模型列举了方法运行的案例。  相似文献   

8.
KDD:数据库中的知识发现   总被引:17,自引:0,他引:17  
一引言 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据急剧增大。但目前数据库系统所能做到的只是对数据库中已有的数据进行存取,人们通过这些据所获得的信息量仅  相似文献   

9.
KDD研究现状及发展   总被引:16,自引:1,他引:15  
陈栋  刘兵 《计算机科学》1996,23(6):38-42
计算机技术和信息网络技术的发展把人们推入了信息社会。信息的增长呈现超指数上升,据有关估计,全世界的信息量不到每20个月就增加一倍。人们寄予希望的数据库技术在一定程度上帮助了人们有效地利用信息,但目  相似文献   

10.
KDD技术在入侵检测中的应用以及如何建立一个基于数据挖掘的入侵检测模型。提出了对安全审计数据进行智能化处理的过程和方法。  相似文献   

11.
基于粒子群优化算法和相关性分析的特征子集选择   总被引:3,自引:0,他引:3  
特征选择是模式识别与数据挖掘等领域的重要问题之一.针对此问题,提出了基于离散粒子群和相关性分析的特征子集选择算法,算法中采用过滤模式的特征选择方法,通过分析网络入侵数据中所有特征之间的相关性,利用离散粒子群算法在所有特征的空间里优化搜索,自动选择有效的特征子集以降低数据维度.1999 KDD Cup Data中IDS数据集的实验结果表明了提出算法的有效性.  相似文献   

12.
Feature Subset Selection within a Simulated Annealing Data Mining Algorithm   总被引:2,自引:0,他引:2  
An overview of the principle feature subset selection methods isgiven. We investigate a number of measures of feature subset quality, usinglarge commercial databases. We develop an entropic measure, based upon theinformation gain approach used within ID3 and C4.5 to build trees, which isshown to give the best performance over our databases. This measure is usedwithin a simple feature subset selection algorithm and the technique is usedto generate subsets of high quality features from the databases. A simulatedannealing based data mining technique is presented and applied to thedatabases. The performance using all features is compared to that achievedusing the subset selected by our algorithm. We show that a substantialreduction in the number of features may be achieved together with animprovement in the performance of our data mining system. We also present amodification of the data mining algorithm, which allows it to simultaneouslysearch for promising feature subsets and high quality rules. The effect ofvarying the generality level of the desired pattern is alsoinvestigated.  相似文献   

13.
基于信息增益的多标签特征选择算法   总被引:1,自引:0,他引:1  
多标签特征选择是一种提高多标签分类器性能的技术。针对目前这类技术在给出合理特征子集合时无法同时兼顾计算复杂度和标签间的相关性的问题,提出一种基于信息增益的多标签分类算法。该算法假设特征之间相互独立,首先使用单个特征与整个标签集合之间的信息增益来度量这两者的关联程度,再根据阈值删除不相关的特征以得到最优特征子集合。实验表明,该算法能有效地提高多标签分类器的分类性能。  相似文献   

14.
Ji Rong  Li 《通讯和计算机》2013,(5):720-723
Optimal fuzzy-valued feature subset selection is a technique for fuzzy-valued feature subset selection. By viewing the imprecise feature values as fuzzy sets, the information it contains would not be lost compared with the traditional methods. The performance of classification depends directly on the quality of training corpus. In practical applications, noise examples are unavoidable in the training corpus and thus influence the effect of the classification approach. This paper presents an algorithm for eliminating the class noise based on the analysis of the representative class information of the examples. The representative class information can be acquired by mining the most classification ambiguity of feature values. The proposed algorithm is applied to fuzzy decision tree induction. The experimental results show that the algorithm can effectively reduce the introduction of noise examples and raise the accuracy of classification on the data sets with a high noise ratio.  相似文献   

15.
主动式KDD系统的设计与实现   总被引:2,自引:0,他引:2  
介绍了一种主动式KDD系统的思想及其设计与实现。在建模挖掘的基础上主动推送信息,利用感知机模型对用户的反馈信息进行修正,逐步增强系统的推送信息的准确性,从而进一步提高KDD系统的智能性和自动性。  相似文献   

16.
二值文本分类中基于Bayes推理的特征选择方法   总被引:7,自引:0,他引:7  
针对二值文本分类算法中的特征选择问题,本文提出了基于贝叶斯推理的评估函数算法来替代常用的、以IG或MI为评估函数的算法;同时,提出了以评估函数值的累计贡献率表示置信度,并以此确定特征选择维度的可量化的方法.对比实验显示,本文提出的新方法具有简便易行、高效实用的优点,此算法不仅对文本分类问题,对其它各类二值分类问题中的特征选择方法研究也都具有很好的参考、借鉴价值.  相似文献   

17.
基于扩张矩阵的渐进式特征子集选择算法   总被引:2,自引:0,他引:2  
特征子集选择问题一直是人工智能领域研究的重要内容,特别是近几年来,特征子集选择的算法研究已经成为机器学习和数据挖掘等领域的一个研究热点。该文在扩张矩阵的基础上提出了类扩张矩阵的概念,并将加权的期望信息和不一致错误率函数应用于特征子集的选择,实现了具有噪音处理功能的渐进式特征子集选择算法———IFSS_EM,实际领域的实验结果表明:IFSS_EM算法具有运行效率高、选择特征较具有代表性的优点,从而使其能够较好地应用于实际领域。  相似文献   

18.
中文Web文本的特征获取与分类   总被引:16,自引:0,他引:16  
许建潮  胡明 《计算机工程》2005,31(8):24-25,39
已有许多方法用于英文网页的特征抽取,相对而言适合于中文网页的方法还不多。该文设计了一个综合考虑位置,频率和词长3个因素的中文Web文本词权重的计算公式,提出了一种用变长度染色体遗传算法提取Web文本特征的方法。实验表明该方法在降低特征矢量数方面是有效的。  相似文献   

19.
把KDD用于赛事决策支持,见之报道的还很少,本文针对一类非对垒式的,以个体成绩为主进行名次排序的体育和娱乐赛事,给出了一个该类赛事分析与预测的KDD建模方法,用于帮助分析和确定对每个参赛者的比赛成绩有影响的各种重要因素,并对比赛结果作出预测。我们的方法以轻量的、多模型的和多种技术的组合/结合为策略;兼顾到了问题的各个方面和主要特征:可以透过对几个参数的简单处理,自动、方便地对已建立的模型进行不断的修正;同时还能主动建议对模型的改进或重建,并为模型的改进或重建提供有用的帮助信息,从而能够较好地解决参赛群体多样性、多变性、影响因素的复杂性和预测的困难性等问题。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号