首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
肖建鹏  张来顺  任星 《计算机应用》2008,28(7):1642-1644
针对直推式支持向量机在进行大数据量分类时出现精度低、学习速度慢和回溯式学习多的问题,提出了一种基于增量学习的直推式支持向量机分类算法,将增量学习引入直推式支持向量机,使其在训练过程中仅保留有用样本而抛弃无用样本,从而减少学习时间,提高分类速度。实验结果表明,该算法具有较快的分类速度和较高的分类精度。  相似文献   

2.
李云飞 《计算机工程》2008,34(17):191-192,195
针对渐进直推式支持向量机箅法训练速度慢和学习性能不稳定的问题,提出一种近邻渐进直推式支持向量机算法.该算法利用支持向量机中支持向量信息,选择支持向量附近的无标签样本点进行标注,采用支持向量预选取的方法减少训练集的规模,提高算法的速度.实验结果表明了该算法的有效性.  相似文献   

3.
直推式支持向量机(TSVM)是支持向量机与直推式学习相结合的重要算法.文中为TSVM中的临时标签样本引入双模糊隶属度以及样本修剪策略,构建一种双模糊渐进直推式支持向量机(BFPTSVM)算法.该算法可有效降低TSVM的计算复杂度及核存储量.模拟实验表明该算法可取得比其他算法更好的分类性能,并且具有较快的收敛速度.  相似文献   

4.
传统的文本分类方法需要标注好的语料来训练分类器,然而人工标记语料代价高昂并且耗时。对此,通过无类别标记的Web数据来训练文本分类器,提出一种基于无标记Web数据的层次式文本分类方法,该方法结合类别知识和主题层次信息来构造Web查询,从多种Web数据中搜索相关文档并抽取学习样本,为监督学习找到分类依据,并结合层次式支持向量机进行分类器的学习。实验结果表明,该方法能够利用无标记Web数据学习分类器,并取得了较好的分类效果,其性能接近于有标记训练样本的监督分类方法。  相似文献   

5.
基于支持向量机的渐进直推式分类学习算法   总被引:48,自引:2,他引:48       下载免费PDF全文
支持向量机(support vector machine)是近年来在统计学习理论的基础上发展起来的一种新的模式识别方法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势.直推式学习(transductive inference)试图根据已知样本对特定的未知样本建立一套进行识别的方法和准则.较之传统的归纳式学习方法而言,直推式学习往往更具普遍性和实际意义.提出了一种基于支持向量机的渐进直推式分类学习算法,在少量有标签样本和大量无标签样本所构成的混合样本训练集上取得了良好的学习效果.  相似文献   

6.
基于TSVM的网络入侵检测研究   总被引:1,自引:0,他引:1       下载免费PDF全文
直推式支持向量机(TSVM) 是一种直接从已知样本出发对特定的未知样本进行识别和分类的技术。该文提出了基于TSVM的网络入侵检测系统模型,并用实验给出了它在网络入侵检测中的性能表现,分析了它与基于传统归纳式支持向量机(ISVM)的入侵检测系统的性能对比。实验结果表明,将TSVM应用到入侵检测是切实可行的。  相似文献   

7.
针对直推式支持向量机中标记速度与标注精度之间的矛盾,提出一种信息反馈的半监督支持向量机算法,该算法利用上轮标注数量、重置次数、未标注边界样本数量等信息,动态调整标记样本数量,对区域标注和成对标注进行折衷,在继承渐进赋值和动态调整的同时,可以平衡标记速度与标记精度之间的矛盾,减少错误的传递和积累.在人工数据集和UCI数据集上的实验结果表明该算法在保证标注准确度的前提下提高算法速度.  相似文献   

8.
为缩小图像的低层特征与高层语义之间的语义鸿沟,基于支持向量机的相关反馈机制受到越来越广泛的关注,但这种方法并没有利用未标记样本的隐含信息.为更好地利用这些信息,提出将直推式支持向量机作为反馈过程中的学习算法.通过分析其所用特征向量的特点,设计一种颜色稀疏特征,并将其与纹理特征结合作为图像描述的特征.实验结果表明该方法较令人满意,同时也说明直推式支持向量机可在文本分类以外的领域取得较好结果.  相似文献   

9.
构建了关于Web表格特征信息知识的领域本体,提出并设计了一种用于Web文本分类的二次分类模型。该模型使用支持向量机方法对测试样本进行第一次分类;由于设定了较高的分类阈值,一次分类后部分测试样本未确定所属类别,对于这些测试样本,抽取样本中的Web表格特征信息,与基于领域本体的分类模板进行相似度匹配,进行第二次分类。最后通过实验验证了该方法的可行性。  相似文献   

10.
针对海冰遥感图像分类问题中标签样本获取困难、标注成本较高导致海冰分类精度难以提高的问题,提出了一种主动学习与半监督学习相结合的方式用于海冰分类。首先,利用基于不确定性准则和多样性准则进行主动学习方法,选择一批最具信息量的标签样本建立标签样本集;其次,充分利用大量的未标签样本信息,并融合主动学习采样的思想选出部分具有代表性且分布在支持向量周边的半标签样本,建立半监督分类模型;最后,将主动学习方法和直推式支持向量机相结合构建分类模型实现海冰图像分类。实验结果表明,相对于其他方法,该方法在只有少量标签样本的情况下,可以获得更高的分类精度,该方式可有效解决遥感海冰分类问题。  相似文献   

11.
The least squares twin support vector machine (LSTSVM) generates two non-parallel hyperplanes by directly solving a pair of linear equations as opposed to solving two quadratic programming problems (QPPs) in the conventional twin support vector machine (TSVM), which makes learning speed of LSTSVM faster than that of the TSVM. However, LSTSVM fails to discover underlying similarity information within samples which may be important for classification performance. To address the above problem, we apply the similarity information of samples into LSTSVM to build a novel non-parallel plane classifier, called K-nearest neighbor based least squares twin support vector machine (KNN-LSTSVM). The proposed method not only retains the superior advantage of LSTSVM which is simple and fast algorithm but also incorporates the inter-class and intra-class graphs into the model to improve classification accuracy and generalization ability. The experimental results on several synthetic as well as benchmark datasets demonstrate the efficiency of our proposed method. Finally, we further went on to investigate the effectiveness of our classifier for human action recognition application.  相似文献   

12.
张传岩  洪晓光  彭朝晖  李庆忠 《软件学报》2012,23(10):2612-2627
在传统信息抽取的基础上,研究Web实体活动抽取,基于格语法对实体活动进行了形式化定义,并提出一种基于SVM(supported vector machine)和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确地抽取实体的活动信息.首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场.在抽取过程中,通过分类器获得包含实体活动的语句,然后利用扩展条件随机场对传统条件随机场中不能利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率.通过多领域的实验,其结果表明,所提出的抽取方法能够较好地适用于Web实体活动抽取.  相似文献   

13.
大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.  相似文献   

14.
A Survey of Web Information Extraction Systems   总被引:12,自引:0,他引:12  
The Internet presents a huge amount of useful information which is usually formatted for its users, which makes it difficult to extract relevant data from various sources. Therefore, the availability of robust, flexible Information Extraction (IE) systems that transform the Web pages into program-friendly structures such as a relational database will become a great necessity. Although many approaches for data extraction from Web pages have been developed, there has been limited effort to compare such tools. Unfortunately, in only a few cases can the results generated by distinct tools be directly compared since the addressed extraction tasks are different. This paper surveys the major Web data extraction approaches and compares them in three dimensions: the task domain, the automation degree, and the techniques used. The criteria of the first dimension explain why an IE system fails to handle some Web sites of particular structures. The criteria of the second dimension classify IE systems based on the techniques used. The criteria of the third dimension measure the degree of automation for IE systems. We believe these criteria provide qualitatively measures to evaluate various IE approaches.  相似文献   

15.
基于Web的快速信息抽取   总被引:7,自引:0,他引:7  
介绍了一种基于Web的信息抽取的快速实现方法,该方法将信息抽取划分为两个阶段,在每个阶段采用不同的数据模型,对于半结构和无结构的信息抽取都有很好的效果。  相似文献   

16.
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术.针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果.充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成.  相似文献   

17.
研究Web信息提取技术,提出数据获取、规则定义和规则执行3个步骤的基于XML的半结构化Web信息提取方法,为进一步满足Web信息提取提供了一种高效的新方法.  相似文献   

18.
分析基于XML的Web信息提取.讨论相关技术在Web信息抽取中的应用并建立相应的Web信息抽取模型,实现Web信息的自动提取。通过分析如何向网络上的不同网站发送HTTP请求数据包,处理响应信息,从而获得包含知识信息的HTML文档或者XML文档;并在Oracle公司的ADF框架下给出Web信息抽取模型的实现程序。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号