首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率.  相似文献   

2.
SVM和K-means结合的文本分类方法研究   总被引:2,自引:1,他引:1  
有监督的分类方法是文本分类中常用的方法,它需要采用人工标识的样本进行训练,对样本的人工标识是一个比较繁锁的过程。无监督的分类方法没有这一过程,但其分类的效果往往不太好。针对两者各自的优缺点,利用一种基于SVM和K—means相结合的文本分类方法,首先用K-means方法进行文本聚类,然后选取每类中距离聚类中心较近的一些文本作为该类的训练样本训练SVM分类器,最后用训练好的SVM对文本进行分类。此方法避免了无监督方法分类效果不好的缺点,同时也省去了SVM方法中对样本进行人工标识的繁锁过程。基于灾害文本的实验结果也表明了这种新方法的可行性。  相似文献   

3.
基于SVM的中文文本自动分类研究   总被引:1,自引:0,他引:1  
详细介绍了进行文本分类的过程,并着重介绍了一种新的基于结构风险最小化理论的分类算法——支持向量机,通过实验比较支持向量机算法和传统的KNN算法应用于文本分类的效果,证实了支持向量机在处理文本分类问题上的优越性。  相似文献   

4.
Web挖掘系统的设计与实现   总被引:3,自引:2,他引:3  
陈建华  包煊 《计算机工程》2002,28(8):141-142,151
介绍了Web挖掘理论,包括Web挖掘定义、Web挖掘任务、Web挖掘分类3个方面,并简单介绍了实现Web文本挖掘系统WTMiner(Web Text Miner)的几个关键技术:分词,特征提取,分类器的设计。在分词中采用了支持首字Hash和二分查找了 从而提高了分词速度,分类器的设计中考虑到SVM的训练算法速度慢的缺点,用近邻法以减少训练样本集中样本的数量,从而大大提高了算法速度。  相似文献   

5.
基于SVM的图像纹理特征分类研究   总被引:2,自引:0,他引:2       下载免费PDF全文
支持向量机(SVM)是一种表现卓越的分类方法,而灰度共生矩阵(GLCM)则是一种很好的纹理分析方法,故而本文提出了一种使用灰度共生矩阵进行特征提取的应用支持向量机的纹理特征分类法。实验结果表明,与直接应用灰度信息进行分类的支持向量机算法相比,本文方法可以取得更为准确的分类结果。  相似文献   

6.
为了快速准确地对文档进行分类,提出了一种基于局部鉴别嵌入LDE和简化SVM的高效文档分类算法。该算法首先利用LDE算法把高维文档数据投影到低维特征空间,然后在低维特征空间利用精简SVM进行分类。实验结果表明该算法具有分类准确率高和运行速度快的优点。  相似文献   

7.
利用SVM(Support Vector Machine)解决二类分类问题的优势,设计了一个粗细两级指纹分类体器,提出并实现了一种新型的指纹分类算法。测试结果表明,该分类器具有很好的泛化能力,对于新样本分类的正确率达98.5%,具有一定的实用价值。  相似文献   

8.
支持向量机(SVM)是20纪90年代初由Vapnik等人提出的一类新型机器学习方法,此方法能够在训练样本很少的情况下达到很好的分类推广能力。能够较好地解决小样本、非线性及高维数等模式识别问题。近年来SVM已在人脸识别、函数逼近以及概率密度估计等众多领域得到了广泛的应用。近邻法(简称KNN)是模式识别非参数法中另外的一种重要的方法,本文阐述了它们之间的一个重要联系。  相似文献   

9.
梁志荣 《福建电脑》2007,(6):41-41,57
本文主要介绍了支持向量机的基本思想,通过目前SVM训练算法的研究成果分析了它在数据挖掘中(尤其是分类算法上)的应用,并阐述了支持向量机在数据挖掘领域中实现的方法。  相似文献   

10.
基于流形学习和SVM的Web文档分类算法   总被引:7,自引:4,他引:3       下载免费PDF全文
王自强  钱旭 《计算机工程》2009,35(15):38-40
为解决Web文档分类问题,提出一种基于流形学习和SVM的Web文档分类算法。该算法利用流形学习算法LPP对训练集中的高维Web文档空间进行非线性降维,从中找出隐藏在高维观测数据中有意义的低维结构,在降维后的低维特征空间中利用乘性更新规则的优化SVM进行分类预测。实验结果表明该算法以较少的运行时间获得更高的分类准确率。  相似文献   

11.
SVM在多源遥感图像分类中的应用研究   总被引:7,自引:1,他引:7  
在利用遥感图像进行土地利用/覆盖分类过程中,可采用以下两种途径来提高分类精度:一是通过增加有利于分类的数据源,引入地理辅助数据和归一化植被指数(NDVI)来进行多源信息融合;二是选择更好的分类方法,例如支持向量机(SVM)学习方法,由于该方法克服了最大似然法和神经网络的弱点,非常适合高维、复杂的小样本多源数据的分类。为了提高多源遥感图像分类的精度,还研究了支持向量机在遥感图像分类中模型的选择,包括多类模型和核函数的选择。分类结果表明,支持向量机比传统的分类方法具有更高的精度,尤其是基于径向基核函数和一对一多类方法的支持向量机模型更适合多源遥感图像分类,因此,基于支持向量机的多源土地利用/覆盖分类能大大提高分类精度。  相似文献   

12.
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的访问模式.数据预处理和日志挖掘算法是Web日志挖掘中的关键技术.文章就此进行了深入的研究,在已知用户访问路径的基础上,提出一种基于MFP算法的日志挖掘算法,并结合实例具体介绍了该算法的执行过程.  相似文献   

13.
Web序列模式挖掘是Web数据挖掘重要研究内容之一。在WAP算法的基础上提出了一种改进算法,该算法在Web序列模式挖掘过程中不需要反复生成条件树,从而提高了算法的运行效率。实验表明,该算法在运行时间上相对于WAP算法具有明显的优势。  相似文献   

14.
Web日志会话的个性化识别方法的研究   总被引:2,自引:1,他引:1       下载免费PDF全文
会话识别是Web日志挖掘中的重要步骤。针对目前的各种会话识别方法,提出了一种改进的基于页面内容、下载时间等多个参数综合得到的针对每个用户的个性化识别方法。该方法通过使用访问时间间隔,判断是否在极大、极小两个阈值范围内来识别会话。根据页面内容、站点结构确定页面重要程度,通过页面的信息容量确定用户正常的阅读时间,通过Web日志中页面下载时间来确定起始阅读时间,对以上因素进行综合后对该阈值进行调整。实验结果表明,相对于目前的对所有用户页面使用单一先验阈值进行会话识别的方法及使用针对用户页面的阈值动态调整方法,提出的方法能更准确地个性化确定出页面访问时间阈值,更为合理有效。  相似文献   

15.
在基于内容图像检索中,图像的底层视觉特征和高层语义概念之间存在着较大的语义间隔。使用机器学习方法学习图像特征,自动建立图像类的模型成为一种有效的方法。本文提出了一种用支持向量机(SVM)实现自然图像自动语义归类的方法,基于块划分聚类得到特征向量作为SVM训练样本,实现语义分类器。由于参与聚类的是某类图像所有块的特征,提取的特征更能反映某一类图像特征。实验证明这种方法是有效的。  相似文献   

16.
针对基于支持向量机的Web文本分类效率低的问题,提出了一种基于支持向量机Web文本的快速增量分类FVI-SVM算法。算法保留增量训练集中违反KKT条件的Web文本特征向量,克服了Web文本训练集规模巨大,造成支持向量机训练效率低的缺点。算法通过计算支持向量的共享最近邻相似度,去除冗余支持向量,克服了在增量学习过程中不断加入相似文本特征向量而导致增量学习的训练时间消耗加大、分类效率下降的问题。实验结果表明,该方法在保证分类精度的前提下,有效提高了支持向量机的训练效率和分类效率。  相似文献   

17.
针对虚拟人切片数据量大、解剖结构复杂等特点,对分割虚拟人切片图像的基于二叉树SVM多类分割方法进行研究.基于二叉树的SVM多类分割方法较其他SVM多分类方法更符合人们分割虚拟人切片图像的习惯,而且能获得较高的分割性能和质量.通过对该方法的性能分析,为组织高效的二叉树SVM多类分割方法提供了理论支持.  相似文献   

18.
一种改进的KNN Web文本分类方法   总被引:3,自引:1,他引:2  
KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方法先通过Rocchio分类快速得到k0个最有可能的候选类别;然后在k0个类别训练文档中抽取部分代表样本采用KNN算法;最后由一种改进的相似度计算方法决定最终的文本所属类别。实验表明,改进的KNN方法在Web文本分类中能够获得较好的分类效果。  相似文献   

19.
利用支持向量机进行模式分类时,特征选择是数据预处理的一项重要内容。有效的特征选择在很大程度上影响着分类器的性能。根据样本各特征分量的均值与方差对分类的影响,提出根据分类权值进行特征选择,以提高支持向量机性能的简便方法,制定了两个具体实施方案。在三个常用数据集上进行了仿真实验,结果验证了方法的有效性。  相似文献   

20.
随着客户关系管理系统的不断发展和应用,使用先进的算法进行客户分析变得越来越重要。尤其是象银行这种以客户为导向的行业,客户分析是十分必要的。当前,支持向量机方法作为一种统计学习理论的分类方法已经发展的比较成熟而且成功应用到了很多领域。文章解决的主要问题是对银行的客户数据根据其属性对客户进行分类,为银行的客户关系管理系统提供一种可靠的分类方法。文中主要介绍了银行的客户分类学习的过程和结果,如,客户数据清洗,数据预处理,SVM进行数据分类,多类分类处理,客户属性选择等问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号