首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 141 毫秒
1.
将投影寻踪回归分析技术引入遥感影像分类中,详尽叙述遥感影像投影寻踪回归分类模型的建立和实现过程。将广州地区的TM影像用于分类实验,并用混合蛙跳算法来优化投影寻踪回归分类模型中的参数矩阵,取得了较为理想的分类效果。此外,还进一步分析了投影中心的设定、调整以及优化算法和岭函数个数对投影寻踪回归模型分类精度的影响。实验结果表明,该模型易于优化实现,稳定性强,模型中岭函数的个数对投影寻踪回归模型的分类精度没有显著影响。  相似文献   

2.
遗传-粒子群的投影寻踪模型   总被引:2,自引:0,他引:2  
以前的投影寻踪研究都是采用遗传算法来寻找最优的投影方向,但遗传算法对初始种群的选择有一定的依赖性,收敛速度较慢,而且得到的也未必是最优解。粒子群算法是一种模拟鸟群飞行觅食的行为,通过个体之间的协作来寻找最优解的进化计算技术。根据遗传算法和粒子群算法的优缺点,将两者有效地结合在一起,提出了遗传-粒子群的投影寻踪模型。该方法能有效地解决投影寻踪模型中投影方向的寻优问题,并将该方法应用于文本分类,在Reuters-21578文档集上分别采用KNN和朴素贝叶斯方法进行实验,结果表明此方法能有效提取投影方向,取得了满意的分类效果,也提高了算法收敛到最优解的能力。  相似文献   

3.
石松  陈云 《计算机工程》2014,(2):171-174
投影寻踪可有效解决文本分类中的维数灾难问题,而投影方向优化是投影寻踪需要解决的关键问题。传统的投影寻踪方法将投影指标优化看作单目标优化问题,会使解的质量受到影响。为此,提出一种基于多目标优化的投影寻踪方法。将类别之间的距离和类别内数据的聚类紧密程度作为2个优化目标,并将投影扩展到多维,利用混沌粒子群优化算法寻找最优的投影方向。在常用文本数据集上进行实验,确定最优投影指标及维度,并比较不同分类模型的分类结果,结果表明,使用该方法能有效提高文本分类性能。  相似文献   

4.
关于“中文网页自动分类竞赛”结果的分析   总被引:5,自引:1,他引:5  
在最近召开的“全国搜索引擎与网上信息挖掘学术研讨会”上,举办了一场“中文网页自动分类竞赛”,共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。  相似文献   

5.
研究人员对网页分类进行大量富有成效的研究工作,截至目前与网页分类相关的研究主要集中于如何选择合适的分类特征、如何设计高效的分类算法这两个方面。从上述两个角度对当前网页分类技术的研究现状进行归纳和综述,以便后续研究人员能更好、更准确地把握网页分类的研究动态。  相似文献   

6.
粒子群算法在投影寻踪模型优化求解中的应用   总被引:5,自引:0,他引:5  
粒子群优化(Particle Swarm Optimization,PSO)算法是一种新兴的优化技术,其思想来源于人工生命和进化计算理论.PSO算法通过粒子追随自己找到的最好解和整个群体的最好解完成问题的优化.针对投影寻踪模型中的最佳投影方向优化问题.运用PSO算法和惩罚函数法相结合对该优化问题进行了计算.仿真实验结果表明:PSO算法对于求解有复杂约束的非线性目标函数优化问题是可行的,且算法的收敛速度快,编程结构简单,易于实现,从而为各领域运用投影寻踪模型评价方法提供了强有力的寻优方法,具有较广的应用前景.  相似文献   

7.
提出基于投影寻踪(PP)算法解决无线传感器网络入侵检测问题,利用PP算法将高维数据投影到低维数据空间,使得多特征属性的节点数据准确聚集.通过节点属性投影值的浮动来检测节点是否受到攻击.实验结果表明:基于PP的无线传感器网络入侵检测的方法在减少计算量,降低检测能耗的情况下,可以得到比传统的误差反向传播(BP)模型检测方法得到更好的检测效果.  相似文献   

8.
中文网页自动分类现状的研究   总被引:1,自引:0,他引:1  
本文重点阐述中文网页自动分类关键技术的现状,介绍分析了两个中文网页自动分类系统。并在文章最后对未来研究提出建议。  相似文献   

9.
该文介绍中文网页自动分类的研究状况;分析常用的特征提取方法并比较其在中文网页分类应用中的优劣,总结经典分类方法;简述分类评价指标;讨论目前分类系统。  相似文献   

10.
基于特征串的大规模中文网页快速去重算法研究   总被引:16,自引:1,他引:16  
网页检索结果中,用户经常会得到内容相同的冗余页面,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想,利用网页文本的内容、结构信息,提出了基于特征串的中文网页的快速去重算法,同时对算法进行了优化处理。实验结果表明该算法是有效的,大规模开放测试的重复网页召回率达97.3% ,去重正确率达99.5%。  相似文献   

11.
基于信息增益的中文文本关联分类   总被引:1,自引:0,他引:1  
关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度-置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则,忽略了文字的分类有效性。本文提出一种新的ACIG算法,结合信息增益与FoilGain在中文文本中选择规则的文字,以提高文字的分类有效性。实验结果表明,ACIG算法比其他关联分类算法(CPAR)有更高的准确率。  相似文献   

12.
张洪祥  毛志忠 《控制工程》2011,18(2):244-247
针对属性权重完全未知且属性值为多维时间序列的评价决策问题,提出一种基于加速遗传算法-投影寻踪和多属性决策的混杂评价决策模型方法.该方法将首先利用投影寻殊方法对多维时间序列数据按照属性进行降维处理,以解决数据处理过程中"维数灾难"带来的影响,并使用加速遗传算法确定最佳投影方向作为属性权重;对于得到的具有时间序列特性的决策...  相似文献   

13.
基于监督学习的中文情感分类技术比较研究   总被引:6,自引:0,他引:6  
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Nave Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明: 采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。  相似文献   

14.
基于知网的中文问题自动分类   总被引:15,自引:1,他引:15  
问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。该方法以问题的疑问词、句法结构、疑问意向词、疑问意向词在知网中的首义原作为分类特征。实验结果表明,在知网中选取的首义原能很好的表达问题焦点词的语义信息,可作为问题分类的一个主要特征。该方法能显著地提高问题分类的精度,大类和小类的分类精度分别达到了92.18%和83.86%。  相似文献   

15.
基于句法结构分析的中文问题分类   总被引:21,自引:3,他引:21  
问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的质量。本文提出了一种用于问题分类的特征提取的新方法,该方法主要使用句法分析的结果,提取问题的主干和疑问词及其附属成分作为分类的特征,此方法大幅度地减少了噪音,突出了问题分类的主要特征,利用贝叶斯分类器分类,有效地提高了问题分类的精度。实验结果证明了该方法的有效性,大类和小类的分类精度分别达到了86.62%和71.92%,取得了较好的效果。  相似文献   

16.
基于双层级联文本分类的简历信息抽取   总被引:1,自引:1,他引:1  
本文提出了一种基于双层级联文本分类的方法,用于简历信息的自动抽取。本方法将简历文本分解为文本块和文本串,并将简历中包含的信息分解为概要信息与详细信息。首先对简历文本中的文本块进行切分与分类,抽取出概要信息,然后选择可能包含详细信息的文本块,将其切分为文本串,再通过对文本串的分类抽取出详细信息。对1200份中文简历的实验结果表明,本方法适用于简历信息的自动抽取和管理。  相似文献   

17.
基于字串内部结合紧密度的汉语自动抽词实验研究   总被引:14,自引:7,他引:14  
自动抽词是文本信息处理中的重要课题之一。当前比较通行的解决策略是通过评估候选字串内部结合紧密度来判断该串成词与否。本文分别考察了九种常用统计量在汉语自动抽词中的表现,进而尝试将它们组合在一起,以期提高性能。为了达到尽可能好的组合效果,采用了遗传算法来自动调整组合权重。对二字词的自动抽词实验结果表明,这九种常用统计量中,互信息的抽词能力最强,F-measure可达54.77% ,而组合后的F-measure为55.47% ,仅比互信息提高了0.70% ,效果并不显著。我们的结论是: (1) 上述统计量并不具备良好的互补性; (2) 通常情况下,建议直接选用互信息进行自动抽词,简单有效。  相似文献   

18.
基于改进贝叶斯模型的问题分类   总被引:11,自引:2,他引:11  
张宇  刘挺  文勖 《中文信息学报》2005,19(2):101-106
随着计算机及互联网络技术的发展,开放域问答系统越来越受到人们的关注,因为它能够给用户提供相对简洁、准确的结果。开放域问答系统通常包括问题分类、问题扩展、搜索引擎、答案抽取和答案选择五个主要部分。问题分类在问答系统中起着很重要的作用,它的准确性直接影响到最终抽取的答案的准确性。 本文在对已有的贝叶斯分类方法进行分析的基础上,对该方法进行了改进。为了验证该方法的效果,构造了问题的训练集和测试集。从实验结果可以看出,该方法在实际应用中获得了较好的效果。  相似文献   

19.
基于向量空间模型的文本分类系统的研究与实现   总被引:25,自引:1,他引:25  
文本分类是信息处理的一个重要的研究课题,它可以有效的解决信息杂乱的现象并有助于定位所需的信息。本文综合考虑了频度、分散度和集中度等几项测试指标,提出了一种新的特征抽取算法,克服了传统的从单一或片面的测试指标进行特征抽取所造成的特征“过度拟合”问题,并基于此实现了二级分类模式的文本分类系统。和类中心分类法相比,实验结果表明二级分类模式具有较高的精度和召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号