首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 875 毫秒
1.
本文提出了一种基于树状SVM进行Web网页分类与信息安全过滤的有效方法。通过对中等规模的Web网页测试实验,表明基于树状SVM的Web网页分类方法是有效的。  相似文献   

2.
针对大规模训练集的网页分类问题提出UCM(UC and SVM)分类方法。UCM算法结合了支持向量机SVM(Support Vector Machine)与无监督聚类UC(Unsupervised Clustering)的特点,使网页分类既有较高的准确率,又有较快的分类速度。在训练阶段,UCM算法利用UC方法形成聚类中心;在分类阶段,UCM算法计算待分类网页与正例中心及反例中心的距离,若距离差较大,用UC分类,否则用SVM分类。在电子政务网页分类系统中的应用表明,UCM网页分类算法在准确率方面远高于UC,略高于SVM;在分类速度上,UCM介于UC和SVM二者之间,远大于SVM。  相似文献   

3.
一种基于预分类的高效SVM中文网页分类器   总被引:4,自引:0,他引:4       下载免费PDF全文
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。  相似文献   

4.
本文提出一种基于损失最小化的SVM多类网页分类算法,该算法在多类的网页分类问题上将基于损失最小化的SVM分类算法和KNN相结合,在选择分类器顺序的问题上采用剩余样本最小错误率方法。实验表明该方法简单有效,较大地提高了SVM分类算法的准确性。  相似文献   

5.
基于支持向量机与无监督聚类相结合的中文网页分类器   总被引:74,自引:0,他引:74  
提出了一种将支持向量机与无监督聚类相结合的新分类算法,给出了一种新的网页表示方法并应用于网页分类问题。该算法首先利用无监督聚类分别对训练集中正例和反例聚类,然后挑选一些例子训练SVM并获得SVM分类器,任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或SVM分类器进行分类。该算法充分利用了SVM准确率高与无监督聚类速度快的优点。实验表明它不仅具有较高的训练效率,而且有很高的精确度。  相似文献   

6.
陈益军 《福建电脑》2007,(6):137-137,145
网页分类是指在给定分类体系的情况下,根据网页的属性自动确定其所属类别的过程.近年来,网页分类在信息检索和机器学习领域得到了广泛的关注,有不少效果较好的方法,如SVM,KNN等.但是由于网页是具有丰富的描述信息的结构体,使用纯文本分类技术处理网页是不合理的.本文提出了一种新的网页分类方法将网页分类粒度从整个网页作为分类的原子对象细化到网页的各内容部分,强调了重点部分,弱化了次要部分.本文在KNN算法的基础上,实现了基于元数据的网页分类方法.  相似文献   

7.
基于最小二乘支持向量机的网页主题语义分类的研究   总被引:1,自引:0,他引:1  
提出了对网页主题进行语义扩展的方法,利用最小二乘支持向量机LSSVM(least squares support vector machines)来代替传统的支持向量机SVM(support vector machine)的分类技术。在建立LSSVM模型的多类别分类算法基础上,将其应用到网页主题语义分类。实验表明,最小二乘支持向量机学习速度快,在小样本情况下具有良好的非线性建模和泛化能力,对网页主题语义分类具有很好的效果。  相似文献   

8.
大多数网页都有如广告、版权、导航链接等噪声,影响Web应用系统的工作质量,因此快速准确地清除网页中的噪声内容是提高Web应用程序性能的关键技术之一。提出了一种网页净化方法,通过用模式树(PT)表示网页的布局结构,根据模式树中节点的信息熵来消除噪声,以达到网页净化的目的。试验将此方法应用于一个SVM分类系统,结果显示通过净化的网页对分类结果的正确率和高效性都有了一定的改进。  相似文献   

9.
费玉莲  姜波  李渊 《计算机应用》2008,28(2):545-548
针对目前异步通信技术的广泛使用,提出了一种基于支持向量机(SVM)的网页分类模型。该模型根据异步通信技术反映在页面上的特点,确定特征向量元素,结合SVM分类算法,建立基于SVM的页面分类。实验表明,它不仅具有较高的训练效率,同时能得到很高的分类精确率。  相似文献   

10.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率.  相似文献   

11.
分层特征计算和错误控制的层次分类方法   总被引:1,自引:0,他引:1  
吴碧军  李涓子  金鑫 《计算机科学》2010,37(10):165-168,180
中文新闻信息分类标准中,类别数量大。在将其应用于新闻分类时,会出现训练模型大、训练时间长,尤其是当部分类别改变时需要全部重新训练等问题。由于分类标准中类别之间存在层次关系,因此层次分类方法可以作为解决方案。研究层次化的中文新闻分类方法,并从以下两方面改善层次化分类方法的效果:1)分层的新闻特征计算,解决了层次分类中新闻在分类类别下的特征向量的不同表示的问题;2)错误控制,解决了在上一层分类错误的情况下新闻不会分到正确的类别上的情况。实验结果表明,层次分类方法的效果比平面分类的准确度提高了约4%,进行多次特征权重计算的层次分类方法比普通的层次分类的准确度提高了约3%,同时进行错误控制的分类效果比普通层次的分类效果提高了大概3%。  相似文献   

12.
针对现有关联分类算法资源消耗大、规则剪枝难、分类模型复杂的缺陷,提出了一种基于分类修剪的关联分类算法改进方案ACCP.根据分类属性值的不同对分类规则前项进行分块挖掘,并对频繁项集挖掘过程和规则修剪进行了改进,有效提高了分类准确率和算法运行效率.实验结果表明,此算法改进方案相比传统CBA算法和C4.5决策树算法有着更高的分类准确率,取得了较好的应用效果.  相似文献   

13.
张永  李晓红  樊斌 《计算机工程》2009,35(18):182-184
不等式最大熵模型较为成功地缓解了文本分类任务中的过拟合问题,但它使用的特征选择算法不能完全发挥不等式最大熵的最大优势。针对该问题提出采用改进的顺序前进式选择算法,提高文本分类任务中的识别率,试验结果证明该算法能够更准确地选出文本代表特征,对不等式最大熵模型的分类成绩有一定的改善。  相似文献   

14.
为提高专利文本自动分类的效率和准确度,提出一种基于双通道特征融合的WPOS-GRU(word2vec and part of speech gated recurrent unit)专利文本自动分类方法。首先获取专利摘要文本,并进行清洗和预处理;然后对专利文本进行词向量表示和词性标注,并将专利文本分别映射为word2vec词向量序列和POS词性序列;最后使用两种特征通道训练WPOS-GRU模型,并对模型效果进行实验分析。通过对比传统专利分类方法和单通道专利分类方法,双通道特征融合的WPOS-GRU专利分类方法提高了分类效果。提出的方法节省了大量的人力成本,提高了专利文本分类的准确度,更能满足大量专利文本分类任务自动化高效率的需要。  相似文献   

15.
针对传统向量空间模型中的特征项孤立处理问题,首先通过χ2统计和特征聚类相结合的模式实现特征降维,然后使用图模型来建立词和词之间相互关联信息,最后运用KNN方法进行文档分类测试。该算法提高了稀有词对分类的贡献,强化了关联词的分类效果,并降低了文档向量的维数。实验证明,该算法提高了分类的准确率和召回率。  相似文献   

16.
为有效使用大量未标注的图像进行分类,提出一种基于半监督学习的图像分类方法。通过共同的隐含话题桥接少量已标注的图像和大量未标注的图像,利用已标注图像的Must-link约束和Cannot-link约束提高未标注图像分类的精度。实验结果表明,该方法有效提高Caltech-101数据集和7类图像集约10%的分类精度。此外,针对目前绝大部分半监督图像分类方法不具备增量学习能力这一缺点,提出该方法的增量学习模型。实验结果表明,增量学习模型相比无增量学习模型提高近90%的计算效率。关键词半监督学习,图像分类,增量学习中图法分类号TP391。41IncrementalImageClassificationMethodBasedonSemi-SupervisedLearningLIANGPeng1,2,LIShao-Fa2,QINJiang-Wei2,LUOJian-Gao31(SchoolofComputerScienceandEngineering,GuangdongPolytechnicNormalUniversity,Guangzhou510665)2(SchoolofComputerScienceandEngineering,SouthChinaUniversityofTechnology,Guangzhou510006)3(DepartmentofComputer,GuangdongAIBPolytechnicCollege,Guangzhou510507)ABSTRACTInordertouselargenumbersofunlabeledimageseffectively,animageclassificationmethodisproposedbasedonsemi-supervisedlearning。Theproposedmethodbridgesalargeamountofunlabeledimagesandlimitednumbersoflabeledimagesbyexploitingthecommontopics。Theclassificationaccuracyisimprovedbyusingthemust-linkconstraintandcannot-linkconstraintoflabeledimages。TheexperimentalresultsonCaltech-101and7-classesimagedatasetdemonstratethattheclassificationaccuracyimprovesabout10%bytheproposedmethod。Furthermore,duetothepresentsemi-supervisedimageclassificationmethodslackingofincrementallearningability,anincrementalimplementationofourmethodisproposed。Comparingwithnon-incrementallearningmodelinliterature,theincrementallearningmethodimprovesthecomputationefficiencyofnearly90%。  相似文献   

17.
The paper provides a practical solution to a real-time text/shape differentiation problem for online handwriting input. The proposed structure of the classification system comprises stroke grouping and stroke classification blocks. A new set of features is derived that has low computational complexity. The method achieves 98.5 % text/shape classification accuracy on a benchmark dataset. The proposed stroke grouping machine learning approach improves classification robustness in relation to different input styles. In contrast to the threshold-based techniques, this grouping adaptation enhances the overall discriminating accuracy of the text/shape recognition system by 11.3 %. The solution improves system’s response on a touch-screen device.  相似文献   

18.
In this paper, an efficient target classification and fusion scheme for wireless sensor networks (WSNs) is proposed and evaluated. When a classification algorithm for WSN nodes is designed, parametric approaches such as Gaussian mixture model (GMM) should be more preferred to non-parametric ones due to the hard limitation in resources. The GMM algorithm not only shows good performances for target classification in WSNs but it also requires very small resources. Based on the classifier, a decision tree generated by the classification and regression tree algorithm is used to fuse the information from heterogeneous sensors. This node-level classification scheme provides a satisfactory classification rate, 94.10%, with little resources. Finally, a confidence-based fusion algorithm improves the overall accuracy by fusing the information among sensor nodes. Our experimental results show that the proposed group-level fusion algorithm improves the accuracy by an average of 4.17% accuracy with randomly selected nodes.  相似文献   

19.
文本特征提取和分类器优化是文本分类的两个关键问题,为了提高文本分类正确率,提出一种聚类加权(CW)和布谷鸟(CS)算法优化最小二乘支持向量机(LSSVM)的文本分类模型。采用TF-IDF算法计算特征词的权重,根据特征词的位置进行加权,经过特征聚类处理降低特征冗余度,采用LSSVM建立文本分类器,采用CS算法对LSSVM参数进行优化。采用复旦大学语料库对模型性能进行仿真测试,仿真结果表明,模型不仅提高了文本分类的正确率,而且提高了文本分类的效率。  相似文献   

20.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号