首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
段丹  郭绍忠  甄涛  刘晓楠 《计算机工程》2008,34(9):70-72,75
针对海量邮件数据的处理需求和实际业务需要,设计了基于数据库编程语言的海量邮件自动分类系统.该系统由特征学习模块、数据库查询模块和贝叶斯分类模块3部分构成.结合贝叶斯分类算法,利用PL/SQL语言与数据库交互时的高效性特点,在ORACLE PL/SQL存储过程中完成对未知邮件的特征提取和表示,实现对海量邮件数据的有效分类.  相似文献   

2.
SPRINT算法是一种具有良好扩展性且能实现并行处理的数据分类方法,可以方便地从算法生成的决策树提取规则.在使用海量医学数据库进行预后分析中,它是值得推荐的一种研究方法.对该算法进行了深入研究,并在预后分析中进行了应用,对于类似医学信息处理有启发意义.  相似文献   

3.
针对海量邮件数据的处理需求和实际业务需要,设计了基于数据库编程语言的海量邮件自动分类系统。该系统由特征学习模块、数据库查询模块和贝叶斯分类模块3部分构成。结合贝叶斯分类算法,利用PL/SQL语言与数据库交互时的高效性特点,在ORACLE PL/SQL存储过程中完成对未知邮件的特征提取和表示,实现对海量邮件数据的有效分类。  相似文献   

4.
陈建国 《软件》2011,32(5):65-66,70
对大型数据库中海量数据进行数据挖掘的方法进行研究,提出一种对海量数据进行数据挖掘的有效方法,该方法实现了如何采用粒子群优化算法对海量数据进行优化划分,并且采用改进的Apriori算法解决Apriori算法产生大量候选项集和多次扫描数据库的缺点。从而解决海量数据挖掘的时间和空间复杂度过高的难点。  相似文献   

5.
一种有效的支持海量图像数据库QBE查询的聚类索引算法   总被引:2,自引:0,他引:2  
对海量图像数据进行基于内容的查询与检索有赖于高效的索引和检索机制。因此,如何将海量图像数据进行合理的分类,人而建立相应的索引机制就成为了一个亟待解决的问题。本文提出了一种有效的支持海量图像数据库QBE查询的聚类索引算法。实验在1万多幅的图像数据库上进行了反复测试,结果表明该算法可以极大地提高检索效率。  相似文献   

6.
基于决策树的遗传算法在数据挖掘领域的应用   总被引:2,自引:0,他引:2  
论文详细阐述了基于决策树的改进的遗传算法的编码技术和相关遗传算子的操作;同时强调说明了相对于当前数据挖掘领域的数据分类算法,论文中的新分类方法在从海量数据库中全局优化搜索分类规则集所显示出它的优越性。最后,通过实例比较结果,证实论文中算法切实可行,有较高搜索效率。  相似文献   

7.
海量天体光谱数据的自动分类是大型观测计划项目中急需解决的重要问题之一.本文设计一种基于覆盖算法的天体光谱自动分类方法.首先对训练样本进行训练,得到各类样本的支撑点(代表点),然后在分类时只需计算待分类样本到各类支撑点的距离,并将与之最近的支撑点所在的类别作为待分类样本的类别.通过对正常星系、正常恒星、星暴星系和活动星系核的模拟和实测光谱进行分类实验,并与SVM分类方法进行比较,结果表明本文方法具有训练速度快、分类准确率高等特点.因此,本文的自动分类算法对大型观测计划所获得的海量天体光谱数据处理有着重要的意义.  相似文献   

8.
基于频繁词集聚类的海量短文分类方法   总被引:1,自引:0,他引:1  
王永恒  贾焰  杨树强 《计算机工程与设计》2007,28(8):1744-1746,1780
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据.文本分类技术对于从这些海量短文中自动获取知识具有重要意义.但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度.一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据.针对这个问题提出了一个新颖的基于频繁词集聚类的短文分类算法.该算法使用频繁词集聚类来压缩数据,并使用语义信息进行分类.实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法.  相似文献   

9.
基于存储过程的海量邮件数据挖掘   总被引:1,自引:1,他引:0       下载免费PDF全文
现有的邮件系统缺少对海量邮件数据的分析和挖掘功能,传统的对单封邮件的分类方式效率低下。针对该问题,研究文本挖掘特点,提出一种基于海量关系型数据库存储过程实现的高效的海量邮件内容数据挖掘算法,并对算法进行多个级别的性能优化。实验结果表明,该算法具有高效性、稳定性和普适性。  相似文献   

10.
数据库是一个庞大的系统,在数据挖掘过程中,对数据处理的算法有多种方式,但每种方式都有其优优势和不足,本文基于数据库技术应用的特点,分析了数据库技术数据处理中的决策树算法、贝叶斯分类方法、关联规则分类方法、以及基于数据库本身技术方法等几种算法分类,通过比较分析得出每种方法存在的利弊,旨在帮助提高数据库技术算法的有效性,也为使用者选择算法或改进算法提供了一定依据.  相似文献   

11.
计算机视觉领域,多结构模型参数的提取是一个常见任务。传统的提取算法一般先对输入数据集进行分类,然后通过对相关数据类的拟合获得对模型集参数的估计。然而,由于模型集未知,对如何实现数据集的准确划分一直是一个难点。针对这个问题,借鉴免疫系统识别抗原产生抗体的工作机理,提出了一种启发式的鲁棒回归分析方法。该方法将数据集的分类过程设计成一个逐步精确化的逼近过程:先通过随机抽样模型对数据集进行粗略划分,然后利用单模型鲁棒回归方法对各数据类中的优势数据进行尝试建模,以获得更好的模型估计。接着以此模型为基础重新对数据集进行划分,以提高分类的准确性。通过这种“分类”、“提纯”、“再分类”、“再提纯”的反复尝试,逐步逼近准确的数据类划分,同时得到模型集的准确解。仿真结果表明,该方法计算时间少,数据分类准确率高,具有较强的多结构模型参数提取能力。  相似文献   

12.
针对模糊C-均值聚类算法对初始化分类参数的选择比较敏感而导致分类结果差异性较大的不足,提出基于模糊C-均值聚类目标函数相对权重系数的偏导函数进行数据分类效果好坏的评价。实验结果表明,该文定义的分类效果评价方法是可行的。  相似文献   

13.
针对模糊C-均值聚类算法对初始化分类参数的选择比较敏感而导致分类结果差异性较大的不足,提出了基于互包含度的有效性函数进行数据分类效果好坏的评价。实验结果表明,本文定义的分类效果评价方法是可行的。  相似文献   

14.
分类在数据挖掘中是一项非常重要的任务.分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个,从而用于数据分类或预测.决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型.主要研究了数据挖掘中的一种基于决策树的分类算法,以及在公交系统数据预测中的应用.在此基础上进一步讨论了ID3算法存在的一些问题并给出了解决方案和实现过程.其研究结果对开发交通规划决策支持系统具有重要的参考价值.  相似文献   

15.
基于规则置信度调整的关联文本分类   总被引:1,自引:0,他引:1  
基于关联规则的文本分类方法ARC-BC是目前已知的分类效果最好的关联规则分类算法.本文提出了利用ARC-BC分类器的封闭测试的结果对分类器进行调整规则置信度的算法RCA(Rules Confidence Adjustment),参与正确分类行为次数多于参与错误分类行为次数(即"威信"较高)的规则应该拥有更高的置信度,反之,就赋予更低的置信度.实验结果表明,经过RCA算法调整的关联文本分类器的分类效果得到显著提高.  相似文献   

16.
Automated classification of tissue types of Region of Interest (ROI) in medical images has been an important application in Computer-Aided Diagnosis (CAD). Recently, bag-of-feature methods which treat each ROI as a set of local features have shown their power in this field. Two important issues of bag-of-feature strategy for tissue classification are investigated in this paper: the visual vocabulary learning and weighting, which are always considered independently in traditional methods by neglecting the inner relationship between the visual words and their weights. To overcome this problem, we develop a novel algorithm, Joint-ViVo, which learns the vocabulary and visual word weights jointly. A unified objective function based on large margin is defined for learning of both visual vocabulary and visual word weights, and optimized alternately in the iterative algorithm. We test our algorithm on three tissue classification tasks: classifying breast tissue density in mammograms, classifying lung tissue in High-Resolution Computed Tomography (HRCT) images, and identifying brain tissue type in Magnetic Resonance Imaging (MRI). The results show that Joint-ViVo outperforms the state-of-art methods on tissue classification problems.  相似文献   

17.
针对模糊C-均值聚类算法对初始化分类参数(包括起始聚类中心位置和初始化分类隶属度矩阵)的选择比较敏感而导致分类结果差异性较大,以及错误分类会给解决实际问题带来难以预料后果的不足,本文从反映数据聚类后类间分离性测度的划分系数入手,提出了可变加权划分系数的新概念,并用于数据分类效果的评价。实验结果表明,本文提出的评价方法不仅是可行的,而且比模糊C-均值聚类算法的目标函数作为数据分类效果的评价准则更好。  相似文献   

18.
一种复合自适应分类算法   总被引:1,自引:0,他引:1  
本文提出一种具有监督特性的复合自适应分类算法.模拟结果表明,该算法比非自适应 的直接分类算法在识别性能上有较大提高.  相似文献   

19.
针对多标签文本分类问题,提出基于频繁项集的多标签文本分类算法——MLFI。该算法利用FP-growth算法挖掘类别之间的频繁项集,同时为每个类计算类标准向量和相似度阈值,如果文本与类标准向量的相似度大于相应阈值则归到相应的类别,在分类结束后利用挖掘到的类别之间的关联规则对分类结果进行校验。实验结果表明,该算法有较高的分类性能。  相似文献   

20.
为了实现对环境音频信号及其相关数据的自动分析,提出了一种环境音频数据分类方法。分类过程中,首先用短时平均幅度对音频数据进行有效分段;然后,计算分段音频数据的长度和平均过零率;最后,计算并生成一个分段音频数据的Mel频率倒谱系数(MFCC)和一阶差分Mel频率倒谱系数(△MFCC)特征参数。分类操作上,根据有效分段的长度和平均过零率确定分类搜索的范围,并在局部范围内采用DTW(Dynamic Time Warping,动态时间规整)分类算法。实验结果验证了该方法对各种环境音频数据分类的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号