共查询到18条相似文献,搜索用时 67 毫秒
1.
2.
基于SVM决策树的文本分类器 总被引:6,自引:0,他引:6
研究了SVM决策树分类器在文本分类中的应用,提出了一种有效的SVM决策树分类器的优化构建方 法.该方法利用类间距离衡量两类间的可分性,并进一步用来描述各结点分类器类集合间的可分性.基于综合考虑结点分类器的类集合可分性,该方法能够获得优化的结点分类器类划分算法,由此构建的SVM决策树分类器在整体性能上得到优化,在文本分类中获得良好效果. 相似文献
3.
本文提出了一种基于树状SVM进行Web网页分类与信息安全过滤的有效方法。通过对中等规模的Web网页测试实验,表明基于树状SVM的Web网页分类方法是有效的。 相似文献
4.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率. 相似文献
5.
研究哈萨克语自动文本分类,并实现哈萨克语文本自动分类系统.系统首先对测试语料进行特征提取,而后生成训练模型.其次,对训练语料进行特征提取生成SVM向量.最后,给出测试文本的分类结果.同时对哈萨克语单词切分和未切分进行分类对比,得出未切分单词可以得出更好的分类效果. 相似文献
6.
基于SVM 的中文文本分类反馈学习技术的研究 总被引:8,自引:0,他引:8
基于相关反馈技术的基本原理,以SVM分类方法为基础,研究了基于SVM的中文文本分类反馈学习技术,分析了分类处理中反馈学习的主要模式,给出了基于SVM文本分类反馈学习的具体实现方法.并进行了相应的实验验证.实验结果表明,反馈学习具有明显提高SVM分类性能的能力。 相似文献
7.
针对I-SVM算法在文本分类中训练时间较长和分类效率低的问题,提出了一种基于支持向量(SV)阀值控制的优化I-SVM算法(TI-SVM)。由于在增量训练样本集中存在大量的非SV,TI-SVM算法根据历史训练模型和KKT条件对新增样本集和历史样本集进行预处理,剔除大部分的非SV,根据预处理后的样本集进行训练新的SVM模型,利用文本的相似度和预设SV的阀值对模型中的冗余SV进一步处理,以提高分类性能。经过对一组客户新闻分类的实验表明,该算法在保证分类精度的同时有效提高了模型的训练和分类效率。 相似文献
8.
There are two well-known characteristics about text classification.One is that the dimension of the sample space is very high,while the number of examples available usually is very small.The other is that the example vectors are sparse.Meanwhile,we find existing support vector machines active learning approaches are subject to the influence of outliers.Based on these observations,this paper presents a new hybrid active learning approach.In this approach,to select the unlabelled example(s) to query,the learner takes into account both sparseness and high-di-mension characteristics of examples as well as its uncertainty about the examples‘‘ categorization.This way, the active learner needs less labeled examples,but still can get a good generalization performance more quickly than competing methods.Our empirical results indicate that this new approach is effective. 相似文献
9.
10.
基于SVM的中文文本自动分类研究 总被引:1,自引:0,他引:1
详细介绍了进行文本分类的过程,并着重介绍了一种新的基于结构风险最小化理论的分类算法——支持向量机,通过实验比较支持向量机算法和传统的KNN算法应用于文本分类的效果,证实了支持向量机在处理文本分类问题上的优越性。 相似文献
11.
针对当前传统静态恶意网页检测方案在面对海量的新增网页时面临的压力,引入了两段式的分析检测过程,并依次为每段检测提出相应的特征提取方案,通过层次化使用优化的朴素贝叶斯算法和支持向量机算法,设计并实现了一种兼顾效率和功能的恶意网页检测系统——TSMWD(two-step malicious Web page detection system)。第一层检测系统用于过滤大量的正常网页,其特点为效率高、速度快、更新迭代容易,真正率优先。第二层检测系统追求性能,对于检测的准确率要求较高,时间和资源的开销上适当放宽。实验结果表明,该架构能够在整体检测准确率基本不变的情况下,提高系统的检测速度,在时间一定的情况下,接纳更多的检测请求。 相似文献
12.
基于支持向量机的中文网页自动分类 总被引:5,自引:0,他引:5
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向理机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。 相似文献
13.
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。 相似文献
14.
一种新的基于SVM-KNN的Web文本分类算法 总被引:1,自引:0,他引:1
在应用基本的支持向量机算法的基础上,提出了一种新的Web文本分类算法。将SVM算法和KNN算法进行结合,提出了基于SVM-KNN的Web文本分类算法,用KNN算法来弥补传统SVM算法的不足,以简单的思想和较小的实现代价对传统SVM算法进行有效的改进,收到了良好的分类效果。 相似文献
15.
针对基于链接关系的网页分类算法中存在噪声邻域网页干扰分类结果的问题,提出利用网页间的相似度进行优化的方法。为不同关系的满足相似度阈值的邻域网页分别设置不同的权值,同时结合支持向量机对网页的分类结果,计算得到网页的类别。实验表明,本文算法准确率、召回率和F1值均有所提高。
相似文献
16.
17.
传统的向量空间模型使用关键词来表示文本,但没有考虑关键词的一词多义和多词一义问题.为了解决该问题,提出了一种潜在语义索引和支持向量机相结合的文本分类方法,使用潜在语义索引方法获得原始特征向量的潜在语义结构.实验结果表明,该方法同单独使用支持向量机的方法相比,分类准确率有小幅度的下降,但特征向量获得了大幅度的降维. 相似文献
18.
提出一种基于图的半指导学习算法用于网页分类.采用k近邻算法构建一个带权图,图中节点为已标志或未标志的网页,连接边的权重表示类的传播概率,将网页分类问题形式化为图中类的概率传播.为有效利用图中未标志节点辅助分类,结合网页的内容信息和链接信息计算网页间的链接权重,通过已标志节点,类别信息以一定概率从已标志节点推向未标志节点.实验表明,本文提出的算法能有效改进网页分类结果. 相似文献