首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
针对大规模训练集的网页分类问题提出UCM(UC and SVM)分类方法。UCM算法结合了支持向量机SVM(Support Vector Machine)与无监督聚类UC(Unsupervised Clustering)的特点,使网页分类既有较高的准确率,又有较快的分类速度。在训练阶段,UCM算法利用UC方法形成聚类中心;在分类阶段,UCM算法计算待分类网页与正例中心及反例中心的距离,若距离差较大,用UC分类,否则用SVM分类。在电子政务网页分类系统中的应用表明,UCM网页分类算法在准确率方面远高于UC,略高于SVM;在分类速度上,UCM介于UC和SVM二者之间,远大于SVM。  相似文献   

2.
一种新的可见光遥感图像云判别算法   总被引:1,自引:0,他引:1  
为了解决由于云层遮挡所引起的数据利用率低等问题,提出了一种新的基于支持向量机(SVM)与无监督聚类算法相结合的分类算法,实现可见光遥感图像快速高效地自动云判别。该算法首先使用ISODATA进行聚类,再利用聚类结果为SVM挑选训练集,从而大大减少SVM的训练时间,融合了SVM准确率高与ISODATA聚类速度快的优势。结果表明:该算法使得SVM的训练时间降低至单独使用SVM算法所需训练时间的2%,基本满足实时性需求,并保证分类正确率达90%以上。  相似文献   

3.
为更及时且有效地挖掘出微博热点,提出一种基于无监督聚类和支持向量机相结合的热点发现方法.该方法运用热点事件之间的关联性,通过这种关联性来预测未知事件是热点事件的可能性.该算法首先通过对已标注的正例和反例训练SVM并获得SVM分类器.然后对测试集用K-means聚类算法进行聚类并获取热点簇,最后对每一簇中的样本使用SVM分类器进行分类,计算出每一簇中热点样本占该簇中总样本的比例.通过三种热度的计算方式.在相同的环境下进行测试,实验表明基于聚类和支持向量机相结合的热点发现方法,对热点发现具有良好的指导作用.  相似文献   

4.
本文提出一种基于损失最小化的SVM多类网页分类算法,该算法在多类的网页分类问题上将基于损失最小化的SVM分类算法和KNN相结合,在选择分类器顺序的问题上采用剩余样本最小错误率方法。实验表明该方法简单有效,较大地提高了SVM分类算法的准确性。  相似文献   

5.
层次支持向量机(SVM)是多类分类方法应用中的研究热点。针对SVM的分类面仅由支持向量决定的理论,提出一种基于无监督聚类方法来预抽取支持向量,训练向量机;并分析现有多类分类方法所存在的弊端,基于综合考虑节点的类集合可分性,设计一种基于树分类器整体性能最优的SVM二叉树层次分类方法。实验表明,该方法对比传统一类对余类法和成对分类法在整体分类精度和训练时间上都有明显提高。  相似文献   

6.
针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过程引入AdaBoost以提高分类器的性能。此外,采用聚类算法处理训练和测试数据集,解决了样本不均衡问题。通过在WebSpamUK2007数据集上进行多组对比实验,结果表明,所设计的垃圾网页检测方案具有最高的检测率(0.851)。  相似文献   

7.
一种新的分裂层次聚类SVM 多值分类器   总被引:6,自引:0,他引:6  
张国云  章兢 《控制与决策》2005,20(8):931-934
提出一种分裂层次聚类SVM分类树分类方法.该方法通过融合模糊聚类技术和支持向量机算法,利用分裂的层次聚类策略,有选择地重新构造学习样本集和SVM子分类器,得到了一种树形多值分类器.研究结果表明,对于k类别模式识别问题,该方法只需构造k-1个SVM子分类器,克服了SVM子分类器过多以及存在不可区分区域的缺点,具有良好的分类性能.实验结果验证了该方法的优越性.  相似文献   

8.
基于Kmeans与SVM结合的遥感图像全自动分类方法*   总被引:1,自引:0,他引:1  
遥感图像分类方法通常采用监督的学习算法,它需要人工选取训练样本,比较繁琐,而且有时很难得到;而非监督学习算法的分类精度通常很难令人满意.针对这些缺陷,提出一种基于K-means与支持向量机(SVM)结合的遥感图像全自动分类方法.首先使用K-means聚类算法对样本进行初始聚类,根据每类中样本数及其稀疏程度选取一些点作为标记的学习样本训练SVM分类器,然后用SVM对原始数据重新分类.Iris数据和遥感数据的实验结果均验证了新方法的有效性.  相似文献   

9.
提出了一种基于高斯混合模型核的半监督支持向量机(SVM)分类算法.通过构造高斯混合模型核SVM分类器提供未标示样本信息,使得SVM算法在学习标示样本信息的同时,能够兼顾整个训练样本集合的聚类假设.实验部分将该算法同传统SVM算法、直推式支持向量机(TSVM)以及随机游走(RW)半监督算法进行分类性能比较,结果证明该算法在拥有较少标示样本训练的情况下分类性能也有所提高且具有较高的鲁棒性.  相似文献   

10.
提出一种基于半监督的联合分类方法.该方法在训练过程中,先构造一个基于类中心思想的简易分类器,通过设定有效阈值,从未标记数据中挑选区别度较大的数据加入到SVM的训练集中;在分类过程中,根据待分类点与分类面的相对位置,结合SVM和KNN算法,分两种情况来对其进行分类.实验结果表明,该方法既能在一定程度上克服监督学习算法手动标记大量训练集的困难,又能相应地提高分类准确率.  相似文献   

11.
提出了一种将无监督聚类和支持向量机相结合的新的入侵检测方法。算法具有无监督聚类速度快和支持向量机精度高的优点,其基本思想是通过将网络数据包和聚类中心的比较确定是否需要进一步的采用支持向量机进行分类,从而减少了通过支持向量机的数据量,达到速度与精度的统一。实验采用KDD99的测试数据,结果表明,该方法能够有效的检测网络数据中的已知和未知入侵行为。  相似文献   

12.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率.  相似文献   

13.
提出一种彩色图像下的文本提取方法,该方法对彩色图像在R、G、B三个颜色层分别进行亮度分级,以避开传统颜色聚类方法的聚类数目选择问题,降低图像复杂度;考虑到文字笔画的显著方向性特征,并且通常具有稳定的颜色,利用方向梯度算法进行文本粗定位;然后进一步利用多类SVM分类器实现文本区域精确判别。新方法限制了候选区域的种类,从而降低了SVM分类器的训练难度,具有较高的准确性和鲁棒性。  相似文献   

14.
为了提高网页目录的构建效率、增加其灵活性,提出了一种改进的文本聚类算法.改进的CBC算法用于快速确定文本的聚类中心,根据网页目录的特点,该算法增加了层次聚类方法,以形成文本类别的层次结构,考虑到网页文本的快速增长,采用增量方式对新网页进行聚类.把该算法应用于网页文本集,产生了有意义的聚类结果,对比K-Means算法,获得了更高的精度,并具有较高的时间性能,实验结果表明了该算法的有效性.  相似文献   

15.
一种新的聚类分析算法   总被引:5,自引:0,他引:5       下载免费PDF全文
给出了一种新的无监督聚类算法,但这种算法并非是基于目标函数的聚类算法,而是对数据直接设计一种迭代运算,以使数据在保持类特征的情况下进行重新组合最终达到分类的目的。通过对一类数据的实验表明,该算法在无监督给出类数方面具有较好的鲁棒性;另外,该算法在数据的准确归类、无监督聚类、确定性,以及对特殊类分布的适用性等方面均优于HCM和FCM算法,  相似文献   

16.
In this paper, an automatic image–text alignment algorithm is developed to achieve more effective indexing and retrieval of large-scale web images by aligning web images with their most relevant auxiliary text terms or phrases. First, a large number of cross-media web pages (which contain web images and their auxiliary texts) are crawled and segmented into a set of image–text pairs (informative web images and their associated text terms or phrases). Second, near-duplicate image clustering is used to group large-scale web images into a set of clusters of near-duplicate images according to their visual similarities. The near-duplicate web images in the same cluster share similar semantics and are simultaneously associated with a same or similar set of auxiliary text terms or phrases which co-occur frequently in the relevant text blocks, thus performing near-duplicate image clustering can significantly reduce the uncertainty on the relatedness between the semantics of web images and their auxiliary text terms or phrases. Finally, random walk is performed over a phrase correlation network to achieve more precise image–text alignment by refining the relevance scores between the web images and their auxiliary text terms or phrases. Our experiments on algorithm evaluation have achieved very positive results on large-scale cross-media web pages.  相似文献   

17.
微学习资源爆炸式的增长带来了大量未经组织处理的文本资源,大量以碎片化形式呈现的微学习资源为学习者的使用带来极大的不便。为让学习者能在碎片化的资源中找到适合于个性化学习的内容,对以文本形式的微学习资源进行聚类是很有必要的。为此,尝试将经过改进的密度峰值算法应用于微学习单元文本聚类。针对密度峰值算法在该领域聚类时存在向量空间高维稀疏、全局一致性不足、截断距离敏感、选择密度峰值中心需要人工监督等问题,使用潜在语义分析模型(LSA)建模,并提出2点改进:其一,针对聚类要求重新定义局部密度,并引入密度敏感距离作为聚类的判据,通过解决截断距离敏感性问题来解决聚类分配时全局一致性问题;其二,用线性拟合寻找野值点来自动寻找密度峰值中心,以实现非人工监督的峰值中心选取问题。微学习单元真实数据集上的实验验证结果表明,本文所提算法比原密度峰值算法以及其他经典聚类算法更适合于微学习单元文本聚类。  相似文献   

18.
一种基于小生境遗传算法的中文文本聚类新方法   总被引:2,自引:0,他引:2  
针对传统c-均值等算法在文本聚类中的缺陷,提出了一种基于小生境遗传算法的中文文本聚类新方法,将文本集的聚类问题转化垄多峰函数的优化问题。以多峰函数的峰值代表文本的聚类中心,聚类的数目不必预先给定。描述了该聚类方法实现文本聚类时适应值函数的构造方法以及小生境半径的动态估计方法。实验结果表明,该方法提高了文本聚类的平均准确率。  相似文献   

19.
针对标准支持向量机在P2P网络流量识别中不支持增量学习的问题.提出一种适于P2P网络流量识别的SVM快速增量学习方法。在对违背Karush—Kuhn—Tucker条件的新增正负样本集分别进行聚类分析基础上,运用聚类簇中心对支持向量机训练生成一个接近增量学习最优分类超平面的过渡超平面.并以此超平面为基准确定初始训练样本集上非支持向量和支持向量的互相转化.进而生成新的样本集实现SVM增量学习。理论分析和实验结果表明。该方法能有效简化增量学习的训练样本集.在不降低P2P网络流量识别精度的前提下.明显缩短SVM的增量学习时间和识别时间。  相似文献   

20.
Automatic text classification is one of the most important tools in Information Retrieval. This paper presents a novel text classifier using positive and unlabeled examples. The primary challenge of this problem as compared with the classical text classification problem is that no labeled negative documents are available in the training example set. Firstly, we identify many more reliable negative documents by an improved 1-DNF algorithm with a very low error rate. Secondly, we build a set of classifiers by iteratively applying the SVM algorithm on a training data set, which is augmented during iteration. Thirdly, different from previous PU-oriented text classification works, we adopt the weighted vote of all classifiers generated in the iteration steps to construct the final classifier instead of choosing one of the classifiers as the final classifier. Finally, we discuss an approach to evaluate the weighted vote of all classifiers generated in the iteration steps to construct the final classifier based on PSO (Particle Swarm Optimization), which can discover the best combination of the weights. In addition, we built a focused crawler based on link-contexts guided by different classifiers to evaluate our method. Several comprehensive experiments have been conducted using the Reuters data set and thousands of web pages. Experimental results show that our method increases the performance (F1-measure) compared with PEBL, and a focused web crawler guided by our PSO-based classifier outperforms other several classifiers both in harvest rate and target recall.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号