首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
一种基于支持向量机的专业中文网页分类器   总被引:4,自引:1,他引:4  
文中提出了一种基于支持向量机的专业中文网页分类算法,利用支持向量机对网页进行二类分类,找出所需专业的中文网页;然后利用向量空间模型,对分类好的专业网页进行多类分类。在构造支持向量机的过程中,为了提高分类的召回率,采用了一种偏移因子。该算法只需要计算二类SVM分类器,实验表明,它不仅具有较高的训练效率,同时能得到很高的分类精确率和召回率。  相似文献   

2.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率.  相似文献   

3.
基于支持向量机的中文网页自动分类   总被引:5,自引:0,他引:5  
贾泂  梁久祯 《计算机工程》2005,31(10):145-147
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向理机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。  相似文献   

4.
网页分类算法中,KNN算法的缺陷之一是分类效率较低,分类的效果很大程度上依赖于相似度函数和参敷K的选择.同时,基于支持向量机(SVM)网页分类器的限制在于要求处理的向量是数值型向量,而网页特征向量往往是词条特征向量.利用KNN算法生成训练样本,进而将词务特征向量数值化,再利用支持向量机分类器对测试网页进行分类,构建了一种新的分类器--KNN-SVM分类器.  相似文献   

5.
针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过程引入AdaBoost以提高分类器的性能。此外,采用聚类算法处理训练和测试数据集,解决了样本不均衡问题。通过在WebSpamUK2007数据集上进行多组对比实验,结果表明,所设计的垃圾网页检测方案具有最高的检测率(0.851)。  相似文献   

6.
网页分类技术是Web数据挖掘的基础与核心,是基于自然语言处理技术和机器学习算法的一个典型的具体应用。基于统计学习理论和蚁群算法理论,提出了一种基于支持向量机和蚁群算法相结合的构造网页分类器的高效分类方法,实验结果证明了该方法的有效性和鲁棒性,弥补了仅利用支持向量机对于大样本训练集收敛慢的不足,具有较好的准确率和召回率。  相似文献   

7.
网页分类技术是web数据挖掘的一个重要分支,是基于自然语言处理技术和机器学习学习算法的一个典型的具体应用。基于统计学习理论和蚁群算法理论,该文提出了一种基于支持向量机和改进蚁群算法相结合的构造网页分类器的高效分类方法,实验结果证明了该方法的有效性和鲁棒性,弥补了仅利用支持向量机对于大样本训练集收敛慢的不足,具有较好的准确率和召唤率。  相似文献   

8.
基于支持向量机和距离度量的纹理分类   总被引:9,自引:1,他引:9       下载免费PDF全文
针对图象纹理分类问题,提出了一种将支持向量机和距离度量相结合,以构成两级组合分类器的分类方法,用该方法分类时,先采用距离度量进行前级分类,然后根据图象的纹理统计特征,采用欧氏距离来度量图象之间的相似性,若符合条件,则给出分类结果,否则拒识,并转入后级分类器,而后级分类器则采用一种新的模式分类方法-支持向量机进行分类,该组合分类方法不仅充分利用了支持向量机识别率高和距离度量速度快的优点,并且还利用距离度量的结果去指导支持向量机的训练和测试,由纹理图象分类的实验表明,该算法具有较高的效率和识别精度,同时也对推动支持向量机这一新的模式分类方法的实际应用具有积极意义。  相似文献   

9.
在网页自动分类优化数据管理的研究,网页分类技术是数据挖掘研究中的一个热点领域,针对当前网页分类方法的精度低、速度慢等难题,为提高网页分类准确率,提出一种将支持向量机和最近邻相结合的网页分类方法(KNN-SVM).KNN-SVM在分类阶段计算待识别样本和最优分类超平面的距离,如果距离差大于给定阈值直接应用支持向量机分类,否则代入以每类的所有的支持向量作为代表点的K近邻分类并进行仿真.仿真结果表明,使用支持向量机结合最近邻分类的分类器分类比单独使用支持向量机分类具有更高的分类准确率,较好地解决应用支持向量机分类时核函数参数的选择问题.  相似文献   

10.
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。  相似文献   

11.
Web文档分类是Web挖掘中最基本的技术之一,而构造一个按照兴趣分类的分类器,需要做大量的预处理工作,来收集正负的训练样例。但负例的收集是非常困难的。文章提出了一个只有正例没有负例的学习模型。该模型主要是重复执行SVM。实验表明,该学习模型对于Web文档分类的分类精度和速度都是非常理想的。  相似文献   

12.
支持向量机在网页信息分类中的应用研究   总被引:4,自引:0,他引:4  
针对日益膨胀的网络信息,为方便用户准确定位所需的信息,将支持向量机(SVM)与二叉决策树结合起来进行网页信息的分类,并在构造决策支持向量机分类模型的基础上,进一步结合聚类的方法,解决多类分类问题,减少支持向量机的训练样本数,提高分类训练速度和分类准确率.  相似文献   

13.
费玉莲  姜波  李渊 《计算机应用》2008,28(2):545-548
针对目前异步通信技术的广泛使用,提出了一种基于支持向量机(SVM)的网页分类模型。该模型根据异步通信技术反映在页面上的特点,确定特征向量元素,结合SVM分类算法,建立基于SVM的页面分类。实验表明,它不仅具有较高的训练效率,同时能得到很高的分类精确率。  相似文献   

14.
针对管道内表面图像的分类问题,提出了一种将支持向量机和距离度量相结合,构成组合分类器的分类方法。分类时先采用距离度量进行前级分类,符合条件则给出分类结果,否则拒识并转入SVM分类器进行分类。该方法充分利用了SVM识别率高和距离度量速度快的优点,并且利用距离度量的结果去指导SVM的训练和测试。实验表明本方法具有较高的效率和识别精度,进一步提高了系统的识别率和容噪性能。  相似文献   

15.
PEBL: Web page classification without negative examples   总被引:7,自引:0,他引:7  
Web page classification is one of the essential techniques for Web mining because classifying Web pages of an interesting class is often the first step of mining the Web. However, constructing a classifier for an interesting class requires laborious preprocessing such as collecting positive and negative training examples. For instance, in order to construct a "homepage" classifier, one needs to collect a sample of homepages (positive examples) and a sample of nonhomepages (negative examples). In particular, collecting negative training examples requires arduous work and caution to avoid bias. The paper presents a framework, called positive example based learning (PEBL), for Web page classification which eliminates the need for manually collecting negative training examples in preprocessing. The PEBL framework applies an algorithm, called mapping-convergence (M-C), to achieve high classification accuracy (with positive and unlabeled data) as high as that of a traditional SVM (with positive and negative data). M-C runs in two stages: the mapping stage and convergence stage. In the mapping stage, the algorithm uses a weak classifier that draws an initial approximation of "strong" negative data. Based on the initial approximation, the convergence stage iteratively runs an internal classifier (e.g., SVM) which maximizes margins to progressively improve the approximation of negative data. Thus, the class boundary eventually converges to the true boundary of the positive class in the feature space. We present the M-C algorithm with supporting theoretical and experimental justifications. Our experiments show that, given the same set of positive examples; the M-C algorithm outperforms one-class SVMs, and it is almost as accurate as the traditional SVMs.  相似文献   

16.
基于代表样本动态生成的中文网页分类   总被引:2,自引:0,他引:2  
华北  曹先彬 《计算机应用》2006,26(10):2502-2504
针对中文网页分类问题该文设计了一种新的基于代表样本动态生成的分类算法。算法通过对原始训练样本集的训练逐个生成代表样本,并充分利用被裁剪训练样本的有效信息,对已生成的代表样本进行多次调整,从而使代表样本更具有代表性。基于该算法的中文网页分类器的实验结果表明,算法有效地压缩了原始训练样本集,提高了分类效率,同时保持了分类的准确性;具有较好的分类性能。  相似文献   

17.
一种基于预分类的高效SVM中文网页分类器   总被引:4,自引:0,他引:4       下载免费PDF全文
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号