首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于核矩阵学习的XML文档相似度量方法   总被引:6,自引:0,他引:6  
杨建武  陈晓鸥 《软件学报》2006,17(5):991-1000
XML文档作为一种新的数据形式,成为当前的研究热点.XML文档间相似度的计算是XML文档分析、管理及文本挖掘的基础.结构链接向量模型(structuredlink vector model,简称SLVM)是一种综合考虑XML文档结构信息与内容信息进行XML文档相似度量的方法.体现XML文档结构单元关系的核矩阵在结构链接向量模型中扮演着重要角色.为自动捕获XML文档结构单元关系,提出了两种核矩阵的学习算法,分别是基于支持向量机(support vector machine,简称SVM)的回归学习算法和基于矩阵迭代的学习算法.相似搜索实验对比结果表明,基于核矩阵学习方法的XML文档相似度量方法的准确性明显优于其他方法.进一步实验表明,基于矩阵迭代学习的核矩阵学习算法与基于支持向量机的回归学习算法相比,不仅具有更高的准确性,而且所需训练文档更少、计算代价更小.  相似文献   

2.
基于结构与文本关键词相关度的XML网页分类研究   总被引:9,自引:0,他引:9  
针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法.算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类.实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题.  相似文献   

3.
在文本分类研究中,向量空间模型具有表示形式简单的特点,但只能表示特征词的词频信息而忽视了特征词间的结构信息和语义语序信息,所以可能导致不同文档被表示为相同向量。针对这种问题,本文采用图结构模型表示文本,把文本表示成一个有向图(简称文本图),可有效解决结构化信息缺失的问题。本文将图核技术应用于文本分类,提出适用于文本图之间的相似度计算的图核算法--间隔通路核,然后利用支持向量机对文本进行分类。在文本集上的实验结果表明:与向量空间模型相比,间隔通路核相比于其他核函数的分类准确率更高,所以间隔通路核是一种很好的图结构相似性计算算法,能广泛应用于文本分类中。  相似文献   

4.
针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊向量空间模型和BP网络的分类方法。在进行文本分类特征提取时,根据特征词在文档中的位置信息和文档结构,构造出模糊分类特征向量,在此基础上,采用BP网络对Web文档进行分类,使分类方法更接近于手工分类。提高了文本分类的精度。文中以中国期刊网专题分类为例验证了方法的有效性。  相似文献   

5.
基于PCA的XML文档特征提取方法   总被引:1,自引:0,他引:1  
郭丽红  王箭 《计算机工程与设计》2011,32(11):3894-3896,3911
为了更好地对XML文档进行分类或聚类分析,以主成分分析的理论基础为指导,在研究了文本表示的各种模型的基础上,提出了两种对XML文档进行向量化表示并进行特征提取的方法,同时也实现了对XML文档的有效降维。实验结果表明,两种方法都能有效地表示XML文档的主体特征,但全路径特征向量抽取方法能更好地描述XML信息,为下一步有效处理XML文档做了良好铺垫,具有一定的研究价值。  相似文献   

6.
支持向量机的优化算法对准确检索所需信息资料很重要.传统支持向量机参数寻优方法速度慢、运算量大,具有一定的盲目性.针对准确快速检索到所需信息,为提高支持向量机算法的性能,提出了一种采用免疫算法对支持向量机参数进行优化的文本分类方法(IA-SVM).将支持向量机模型参数作为抗体的基因设计了抗体的编码方案,利用人工免疫算法对支持向量机的惩罚因子和径向基核函数进行优化搜索,使支持向量机的分类性能最优.实验结果表明,IA-SVM算法减少了对支持向量机参数选择的盲目性,在文本分类问题上明显提高了分类正确率和检索速度.  相似文献   

7.
基于核方法的Web挖掘研究   总被引:2,自引:0,他引:2  
基于词空间的分类方法很难处理文本的高维特性和捕获文本语义概念.利用核主成分分析和支持向量机。提出一种通过约简文本数据维数抽取语义概念、基于语义概念进行文本分类的新方法.首先将文档映射到高维线性特征空间消除非线性特征,然后在映射空间中通过主成分分析消除变量之间的相关性,实现降维和语义概念抽取,得到文档的语义概念空间,最后在语义概念空间中采用支持向量机进行分类.通过新定义的核函数,不必显式实现到语义概念空间的映射,可在原始文档向量空间中直接实现基于语义概念的分类.利用核化的GHA方法自适应迭代求解核矩阵的特征向量和特征值,适于求解大规模的文本分类问题.试验结果表明该方法对于改进文本分类的性能具有较好的效果.  相似文献   

8.
针对文本自动分类问题,提出了一种基于模糊向量空间模型和径向基函数网络的分类方法.网络由输入层、隐层和输出层组成.输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来.该方法在特征提取时充分考虑了特征项在文档中的位置信息,构造出模糊特征向量,使自动分类更接近手工分类方法.以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性.  相似文献   

9.
支持向量机是基于统计学习理论的模式分类器。它通过结构风险最小化准则和核函数方法,可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,具有较好的推广性能和较高的分类准确率,研究了将支持向量机理论用于纹理分类识别的方法,实验结果表明,该方法比传统的基于BP神经网络的识别方法识别准确率高。  相似文献   

10.
《软件》2019,(9):71-74
在文本分类领域,中文文本需要经过数据处理,将文档表达成计算机可以理解并处理的信息。本文采用TF-IDF作为文本表示方法,针对中文文章的多分类问题,对传统支持向量机进行改进,提出了一种基于特征选择的多类支持向量机分类方法。在中文文章数据集的对比实验结果表明,本文的方法在多分类性能上较优于其他模式识别方法。  相似文献   

11.
该文首先介绍了构造型神经网络中的覆盖算法的特点和性质,以及与支持向量机(SVM)中的核函数法的关系。然后,根据这些性质将两者有机结合起来,提出了一种处理多类问题分类的基于核函数的二分覆盖分类算法(Kf-BCC)。仿真结果表明,这种方法可以达到很好的效果,也为多类问题的分类提供了一种有效途径。  相似文献   

12.
一种改进的支持向量机的文本分类算法   总被引:16,自引:11,他引:5  
在文本分类中,应用支持向量机(SVM)算法能使分类在小样本的条件下具有良好的泛化能力.但支持向量机的参数取值决定了其学习性能和泛化能力.为提高支持向量机算法的性能,提出了一种采用免疫算法对支持向量机参数进行优化的文本分类算法(IA-SVM).算法减少了对支持向量机参数选择的盲目性,提高了SVM的预测精度.实验表明,IA-SVM算法在文本分类问题上明显提高了分类正确牢,学习速度也有提高.  相似文献   

13.
一种支持向量机的组合核函数   总被引:11,自引:0,他引:11  
张冰  孔锐 《计算机应用》2007,27(1):44-46
核函数是支持向量机的核心,不同的核函数将产生不同的分类效果,核函数也是支持向量机理论中比较难理解的一部分。通过引入核函数,支持向量机可以很容易地实现非线性算法。首先探讨了核函数的本质,说明了核函数与所映射空间之间的关系,进一步给出了核函数的构成定理和构成方法,说明了核函数分为局部核函数与全局核函数两大类,并指出了两者的区别和各自的优势。最后,提出了一个新的核函数——组合核函数,并将该核函数应用于支持向量机中,并进行了人脸识别实验,实验结果也验证了该核函数的有效性。  相似文献   

14.
最小二乘支持向量机在睡眠打鼾诊断中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
支持向量机是数据挖掘和机器学习领域中的重要方法之一,最小二乘支持向量机是支持向量机学习算法的重要扩展,在训练速度方面有明显优势。对支持向量机现有的多类分类算法(一对一方法、一对多方法、纠错输出编码方法和最小输出编码方法)引入了最小二乘支持向量机,并应用于睡眠打鼾疾病的诊断预测中,取得了较好的效果。  相似文献   

15.
The Support Vector Machines (SVM) constitute a very powerful technique for pattern classification problems. However, its efficiency in practice depends highly on the selection of the kernel function type and relevant parameter values. Selecting relevant features is another factor that can also impact the performance of SVM. The identification of the best set of parameters values for a classification model such as SVM is considered as an optimization problem. Thus, in this paper, we aim to simultaneously optimize SVMs parameters and feature subset using different kernel functions. We cast this problem as a multi-objective optimization problem, where the classification accuracy, the number of support vectors, the margin and the number of selected features define our objective functions. To solve this optimization problem, a method based on multi-objective genetic algorithm NSGA-II is suggested. A multi-criteria selection operator for our NSGA-II is also introduced. The proposed method is tested on some benchmark data-sets. The experimental results show the efficiency of the proposed method where features were reduced and the classification accuracy has been improved.  相似文献   

16.
支持向量分类机的修正核函数   总被引:2,自引:0,他引:2       下载免费PDF全文
核函数是支持向量机的核心,它的作用主要体现在处理非线性问题时,将研究问题从低维空间转化成高维空间,使之在高维空间中变成线性问题,核函数的研究在支持向量机中是非常必要的。首先讨论核函数的本质,并且基于黎曼几何结构和数据依赖的方法,提出了一种改进的修正核函数,改进后的核函数形式简单,计算量较低,其中保形因子与支持向量无关,较之于以前的研究克服了支持向量的数目和分布的影响。将该核函数用于模式分类中,取得了良好的效果,显著提高了支持向量分类机的泛化能力。  相似文献   

17.
Large-scale Support Vector Machine (SVM) classification is a very active research line in data mining. In recent years, several efficient SVM generation algorithms based on quadratic problems have been proposed, including: Successive OverRelaxation (SOR), Active Support Vector Machines (ASVM) and Lagrangian Support Vector Machines (LSVM). These algorithms have been used to solve classification problems with millions of points. ASVM is perhaps the fastest among them. This paper compares a new projection-based SVM algorithm with ASVM on a selection of real and synthetic data sets. The new algorithm seems competitive in terms of speed and testing accuracy.  相似文献   

18.
模糊支持向量机隶属度的确定方法   总被引:2,自引:0,他引:2  
传统的支持向量机对噪声或野点是敏感的,针对这种情况,引入了模糊支持向量机,但模糊隶属度的确定是个难点。利用基于线性规划下的一类分类算法来确定模糊隶属度,根据不同输入样本对分类的贡献不同,赋予相应的隶属度,将噪声或野点与有效样本区分开。实验结果表明,模糊支持向量机比传统的支持向量机有更好的分类效果,能够削弱噪声或野点的影响。  相似文献   

19.
超核函数支持向量机   总被引:1,自引:0,他引:1  
贾磊  廖士中 《计算机科学》2008,35(12):148-150
支持向量机是当前机器学习、模式识别和数据挖掘等领域的重要学习方法,核函数的构造是研究和应用支持向量机的关键问题.针对这一问题,提出了核函数构造的组合理论,定义了超核函数概念,并通过多项式组合现有核函数构造出一类超核函数.具体地,首先分析了一般核函数存在的过学习和欠学习现象,然后证明了组合理论构造的核函数的Mercer性质,并通过在仿真数据集和标准数据集上的对比实验,验证了超核函数的性能.理论分析和实验结果阐明了所提出的超核函数组合构造理论的合理性和有效性,开拓了模型选择组合方法的研究途径.  相似文献   

20.
生物信息学的一个关键的研究课题是理解细胞的分子机制,这依赖于对基因所决定的每一条蛋白质的含义或者功能的理解.一般通过与一条或多条功能已知的蛋白质的相似性比较来推测未知蛋白质的功能,其中,基于支持向量机的一些算法取得了很好的成果.SVM-pairwise算法是当前最好的基于支持向量机的算法中的一个,该方法利用两条序列的相似性来将蛋白质序列转化为固定长度的向量.文中提出了一种新的利用支持向量机算法对蛋白质序列进行分类的方法,这种方法使用位点进化距离代替两条序列的比对得分,该方法比SVM-pairwise有着显著的改善,在蛋白质结构分类数据库(SCOP)上进行的实验表明,该方法具有比SVM-pairwise更好的分类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号