首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 59 毫秒
1.
分类挖掘算法综述   总被引:5,自引:0,他引:5  
分类算法是数据挖掘中最为重要的技术之一.通过介绍当前最具有代表性的分类算法,分析并总结了各种算法在分类挖掘中的优缺点及目前的改进状况,为数据库应用技术的推广提供了借鉴.  相似文献   

2.
针对数据挖掘中的文本自动分类问题,提出了一种基于加权模糊推理网络的分类方法.网络的基本信息处理单元为模糊推理神经元,融合了模糊逻辑能够较完整的表达领域规则和先验知识以及神经网络自适应环境的优点.根据模糊推理规则的量化表示形式和微分方程数值解的动力学思想推导出网络一种新的学习算法.该算法以文本特征谓词的真度作为分类依据,体现了模糊分类的思想以旅游站点网页分类为例验证了该方法的有效性。  相似文献   

3.
文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息.目前,文本自动分类是信息检索领域中最前沿的研究热点之一,国内外均有大量学者从事这方面的研究.研究组对文本自动分类进行了深入细致的研究,针对文本自动分类目前存在的问题,提出了一些新的模型,大规模数据集上的实验表明该模型性能优异,表现优于很多方法.  相似文献   

4.
在介绍可拓学基本思想的基础上,把可拓学的思想引入到数据挖掘领域,初步研究了可拓学在Web文本挖掘中的应用.  相似文献   

5.
数据挖掘在数据库决策系统中的实现   总被引:1,自引:0,他引:1  
分析了数据挖掘的工作流程,利用数据挖掘从大规模数据库中寻找各变量之间函数依赖近似的强关联和确定条件概率,并将该方法应用于数据库决策系统中。  相似文献   

6.
针对恒星光谱数据的处理需求,采用约束概念格作为恒星自动分类手段,利用Visual C++6.0和Oracle10g作为系统开发的工具,设计并实现了恒星光谱数据的自动分类系统,在介绍系统的功能模块和体系结构的基础上,详细描述了系统的关键技术。系统的运行结果表明,利用约束概念格来实现恒星光谱数据的自动分类,是可行的和有价值的。  相似文献   

7.
保持隐私的朴素贝叶斯分类   总被引:3,自引:0,他引:3       下载免费PDF全文
隐私保护是数据挖掘中很有意义的研究方向。本文所关心的问题是如何在两个私有数据库的联合样本集上施行数据挖掘算法,同时保证不向对方泄露任何与结果无关的数据库信息。这种情形在科研合作等领域已经屡见不鲜。针对数据分类算法中应用非常普遍的朴素贝叶斯分类算法,我们利用安全两方计算协议,给出一个保持隐私的朴素贝叶斯分类协议,在保持计算隐私性的同时,协议在计算复杂度和传输复杂度与一般的贝叶斯分类非常接近,协议是高效可行的。  相似文献   

8.
海南发射场的海量文档缺乏有效的组织和管理,急需开发一种快速、有效的方法以实现文档的自动整理、归类。针对这一实际需求,基于Web技术和文本分类技术,通过Web服务器构建、训练文本数据收集、文本预处理、文本特征表示和分类模型训练,研发了一套服务器—客户端模式的航天文本分类系统。经测试,该分类系统在测试数据集上的准确率和召回率均达到90%以上,具有良好的分类性能。  相似文献   

9.
为了在产品创新设计过程为设计者提供跨领域的专利知识,提出一种以功能基为分类标准的中文专利文本分类方法。针对功能基类别多、专利文本训练集少的特点,从简化类别数量和增加数据集2个角度出发,采用多重二分类监督分类算法和基于EM算法的半监督分类算法,以朴素贝叶斯(NB)完全有监督算法为对照,采用正交实验,考察特征选择与数据集选择对分类准确度的影响,实现一级功能基分类准确率达到80%,基本符合应用要求。为基于功能基辅助产品创新设计专利知识库的构建,提供了相关的技术支持。  相似文献   

10.
基于FVSM和自组织映射网络的Web文本自动分类方法   总被引:1,自引:0,他引:1  
针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊特征向量(FVSM)和自组织特征映射网络的分类方法.网络由输入层和竞争层组成.输入层节点与竞争层节点实行全互连接.输入层完成分类样本的输入,竞争层提取输入样本所隐含的模式特征,并对其进行自组织,在竞争层将分类结果表现出来.分无监督和有监督两个阶段完成对网络的分类训练.该方法在特征提取时充分考虑了特征项在文档中的Web位置信息,构造出模糊特征向量,使自动分类原则更接近手工分类方法.以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性.  相似文献   

11.
基于XML的Web中文文本挖掘系统设计   总被引:1,自引:0,他引:1  
语料本的挖掘和本语料库的建设对语言学研究具有重要意义,因此语料本的挖掘和本语料库的建设就越来越值得探讨。但由于Web上本的半结构化特征和异构本源的问题,在Web上的本挖掘具有很多困难。本提出了将XML技术与Web挖掘技术相结合,根据研究的个人需求定制个性化的Web中本挖掘系统框架和实现方案,并给出了面向法律领域的Web本挖掘系统Laws Miner的实例。  相似文献   

12.
中文文本分类的特征选取评价   总被引:9,自引:0,他引:9  
在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种特征选取方法(文档频度DF、互信息MI、信息增益IG、x^2统计X^2、术语强度TS)进行评价,选用Naive Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x^2的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的F1值为64.60%;IG为69.36%,而DF则达到87.01%.  相似文献   

13.
基于SVM的中文文本分类算法   总被引:1,自引:0,他引:1  
提出了一种基于支持向量机的中文文本分类算法,介绍了文本分类过程中的文本表示、特征提取和SVM算法等关键技术.最后进行了实验和分析,由实验结果可以看出,该方法在精确率和召回率等方面能够达到比较好的效果.  相似文献   

14.
介绍了IG(Informationgain)信息增益,MI(Mutualinformation)互信息值,CHI(X2统计法)、DF(Documentfrequency)文档频率4种常用的文本特征提取方法,然后针对CHI方法提出了改进方法,并对改进的方法进行了实验分析,结果表明改进的方法提高了文本分类的正确率.  相似文献   

15.
讨论了文本分类系统中的特征提取方法.探讨了文档频率(DF)、信息增益(IG)、互信息算法(MI)三种不同的特征提取方法对中文文本分类的影响,并提出了一种结合信息增益和互信息的特征提取方法.实验表明本文提出的特征提取方法一定程度上提高了中文文本分类准确性.  相似文献   

16.
主要介绍了文本分类问题,讨论了文本分类所涉及的关键技术,包括中文分词,文本表示,特征选取方法,以及Rocchio、朴素贝叶斯、K近邻、决策树、神经网络和支持向量机等文本分类算法的原理和方法.最后,给出了基于文本分类技术的中文垃圾短信过滤方法的实验和结果.  相似文献   

17.
为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.  相似文献   

18.
KNFL算法是一种近年来在人脸识别领域得到广泛应用的算法,这种算法认为类中两点的连线也可以近似代表类的特征,把它应用于文本分类领域可以得到较好的分类效果,但是由于时间复杂度比较高,影响了其实用价值.本文提出了一种应用于文本分类的改进的KNFL算法,计算出类的中心点后再进行两次过滤,分别将离类中心点较远的特征点和特征线过滤掉,减少了训练集样本数目,在对分类精确度影响不大的情况下,改善了KNFL算法的分类效率,最后用实验验证了该算法的有效性.  相似文献   

19.
基于K-最近距离的自动文本分类的研究   总被引:13,自引:1,他引:13  
提出并实现了利用统计词频信息和语言信息相结合的方法选择特征,计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度.经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.对英文文本的测试结果表明,该算法提高了文本分类的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号