首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
对于切碎英文文档自动拼接还原中无法利用碎纸片几何形状特征的问题, 提出一种基于灰度值矩阵的文档碎片拼接方法。利用碎片图像的特征向量消除同行字母处于不同高度的负影响, 提取其特征位置作为动态聚类的分类标准,依据文本行特征进行动态聚类和类间排序。设计了一种基于原图像碎片边界矩阵的四邻拼接算法进行逐一高效地拼接还原。仿真结果表明, 该方法准确率较高且操作简便, 对规则碎片拼接还原具有良好的实际意义。  相似文献   

2.
一种手写汉字拓扑图表示及其动态获取   总被引:2,自引:0,他引:2  
手写汉字的机器识别,属于图像模式分类问题。所谓图像模式分类,指的是把一定范围内的图像,分成预先确定的类别,然后再去对给定范围内的图像进行识别分类。显然,这其中预先确定类属性特征、类标准模板以及具体分类识别策略都是图像模式识别的关键问题。对于我们具体的手写汉字识别问题,由于单字结构分析和基元形态分析一起可以给出汉字形体的完整描述,而统计形态分析却难以满足大规模汉字字集的集群性和分离性要求。  相似文献   

3.
针对油田注产剖面动态测试在选井上没有一个合适参考标准的问题,提出利用基于特征的聚类将油井按照生产状况进行先聚类再分类的方法。首先对油井生产时间序列数据选择处理,然后提取序列特征进行聚类,并把聚类结果划分等级,最后制定油田测试优化方案。实验结果表明,提取的时间序列特征能很好地表征油井生产波动情况,获得较好地分类效果,对指导油田测试有重要意义。  相似文献   

4.
利用相似度多个维度的信息进行开集判别,以提高开集人脸识别的准确率。该方法首先通过大量带标识的测试样本获得已知类样本和非已知类样本相似度向量的分布,然后引入线性判别分析学习两个类中相似度向量的分布特征,在开集判别中通过相似度向量的特征匹配来判断样本是否为已知类。利用相似度分布中的分类信息,训练出的特征具有更强的分类能力。不同人脸库的实验表明,相对于传统方法,文中方法能提高开集识别的准确率。  相似文献   

5.
针对一般的简单人工神经网络,该文提出了一种新的神经网络模型--幂函数神经网络,利用梯度下降法推导出了神经网络模型权值和阈值的修正学习算法,并利用该模型解决了XOR问题.然后对26个英文大写字母的结构特征进行统计分析得到了一个粗分类规律.最后以26个英文大写字母辨识为仿真实例,经过统计预处理的粗分类后,有些类可以直接得到结果,情况较复杂的类也可以仿照XOR问题的解决来得到辨识结果.文章提出的人工神经网络模型和字母辨识的预处理方法,改进了字母辨识的传统方法,简化了传统辨识模型的复杂度,提高了辨识效率.  相似文献   

6.
一种新的语言信息计算模型   总被引:1,自引:0,他引:1  
语言的可计算性问题是理论计算机科学的一个基本问题,字母文字信息的计算模型已经有数十年的历史,而适合汉语信息的计算模型尚未见到.中文信息处理与信息安全的研究迫切需要有适合汉语信息的数学计算模型,提出了两个新的字符串计算模型.在模型1的基础上定义了几个函数运算.利用这两个模型可以将任何汉语信息的处理转换为相应的数值进行处理,对汉语信息处理、汉语程序设计理论的建立和信息安全的研究具有一定的实际意义。  相似文献   

7.
事件分类研究一直是计算机科学和语言学等学科的核心研究内容,针对动词语义层面上的分类问题,研究者们提出了不同的分类标准,而根据这些分类标准对动词进行分类会产生分类有交叉和分类粒度粗等问题。一个动词通常表示一个过程事件,该文以汉语世界中经常发生的过程事件为语义分类对象,从事件的定义中提取事件的特征属性,并给每个特征属性赋予权重,利用特征属性对顶层事件类包含的事件进行分类。该文采用框架的形式对事件进行语义描述,框架内容由事件的特征属性和私有属性组成。重点以“传播”类事件为例来阐述该文的分类方法,通过实际操作发现,利用该分类方法,可以得到一个比较清晰的事件语义分类结构。该文用描述逻辑来对事件及事件之间的分类关系进行形式化表示。根据该事件分类体系,可以有效获取事件属性相关的常识知识。  相似文献   

8.
智能零售场景中往往会使用到图像分类技术来识别商品,然而实际场景中并不是所有出现的物体都是已知的,未知的物体会干扰场景中的模型正常运行.针对智能零售场景中的图像分类问题,从已知类别封闭数据集的分类特征出发,通过对已知类别的分类特征进行计算和修正得到对未知类别物体的分类预测.通过构造已知类别的特征空间,并结合针对图像分类特征空间的特性优化的特征距离——归一化主类距离,可以更好地拟合特征空间在已知类别数据集中的边界概率模型.最终用边界概率模型对原分类特征做出修正计算,得到对物体的未知类别的分类预测,并通过设计实验验证该方法的可行性.此外,在智能零售场景的数据集支持下,与已有方法进行了对比实验.使用特征空间归一化主类距离的开放集分类算法在有着更高的已知类别分类准确率的同时,开放集拒绝率有14.20%的提升,达到了44.85%.  相似文献   

9.
支持向量机是一种新的统计学习算法,其学习原则是使结构风险最小,与经典的学习方法的经验风险最小原则不同,这使得支持向量机具有很强的泛化能力。因为支持向量机算法是一个凸二次优化问题,能够保证所求的局部最优解就是全局最优解。目前,研究的绝大多数是两类问题。然而,即使我们能够将两类问题正确分类,也不能意味着实际应用中多类分类问题的解决。在这篇文章中,我们介绍了支持向量机算法,并且通过多类字母图象分类问题说明支持向量机算法在多类分类问题中的应用。  相似文献   

10.
随着传感器广泛应用于各个领域,在传感器生成的时间序列上识别事件越来越受到广泛的关注。针对震荡的传感器时间序列,提出事件分类算法BEC。对于原始长时间序列和标记时间点作为类标签,BEC主要解决了两个问题。首先是将标记时间点扩展为包含充分信息的子序列以分类,再者是提取基于突变的特征以训练分类模型。实验结果证明,无需大部分时间序列分类问题中不现实的假设和太多人力干预,BEC提取的基于突变的特征能够充分描述事件,极大保留事件中关键信息,在现实数据集上的表现优于现有的时间序列分类算法。  相似文献   

11.
基于离散小波变换的时间序列数据挖掘   总被引:2,自引:0,他引:2  
提出了一种利用离散小波变换进行时间序列分析预测的新方法。该方法的特点主要是在小波系数的选取依据上与以往方法不同,以往方法大多是选取前k个位置的系数或者是选取数值最大的k个位置的系数,其依据是能量保持;本文方法的选取依据是各系数在训练集数据上的分类能力大小,即通过对已知类别的训练集的学习过程,找出使得类内距离最小、类间距离最大的若干系数作为特征系数。对于未知类别的时间序列,根据特征系数计算出该序列属于各个类别的隶属度,隶属度最高的类别即为预测结果。实验结果表明,本方法用于时间序列分析预测,显示出了较高的效率和准确性。  相似文献   

12.
在分析海量生物序列时,现有的聚类算法存在着时间效率不高、准确率较低,以及聚类结果的生物意义不足等问题。针对这些问题,提出一种基于位置信息熵的局部敏感哈希聚类方法。通过对生物序列使用K词计算其标准熵,将标准熵作为局部敏感哈希函数簇的特征向量,计算特征矩阵并应用于生物序列聚类。实验结果表明,该算法能够有效地提高时间效率和聚类的准确率。随着数据集的增大,也同样取得很好的效果,实验结果更具有生物解释性和实际意义。  相似文献   

13.
卢伟胜  郭躬德  陈黎飞 《计算机应用》2014,34(10):2869-2873
传统的n-gram文本特征提取方法会产生高维度的特征向量,高维数据不但增大了分类的难度,同时也会增加分类的时间。针对这一问题,提出了一种基于词性(POS)标注序列的特征提取方法,根据词性序列能够代表一类文本的这一个特点,利用词性序列组作为文本的特征以达到降低特征维度的效果。在实验中,词性序列特征提取方法比n-gram特征提取方法至少提高了9%的分类精度,降低4816个维度。实验结果表明,该方法能够适用于微博情感分类。  相似文献   

14.
目的 小样本学习任务旨在仅提供少量有标签样本的情况下完成对测试样本的正确分类。基于度量学习的小样本学习方法通过将样本映射到嵌入空间,计算距离得到相似性度量以预测类别,但未能从类内多个支持向量中归纳出具有代表性的特征以表征类概念,限制了分类准确率的进一步提高。针对该问题,本文提出代表特征网络,分类效果提升显著。方法 代表特征网络通过类代表特征的度量学习策略,利用类中支持向量集学习得到的代表特征有效地表达类概念,实现对测试样本的正确分类。具体地说,代表特征网络包含两个模块,首先通过嵌入模块提取抽象层次高的嵌入向量,然后堆叠嵌入向量经过代表特征模块得到各个类代表特征。随后通过计算测试样本嵌入向量与各类代表特征的距离以预测类别,最后使用提出的混合损失函数计算损失以拉大嵌入空间中相互类别间距减少相似类别错分情况。结果 经过广泛实验,在Omniglot、miniImageNet和Cifar100数据集上都验证了本文模型不仅可以获得目前已知最好的分类准确率,而且能够保持较高的训练效率。结论 代表特征网络可以从类中多个支持向量有效地归纳出代表特征用于对测试样本的分类,对比直接使用支持向量进行分类具有更好的鲁棒性,进一步提高了小样本条件下的分类准确率。  相似文献   

15.
元基因组学是计算生物学领域的一个重要分支,主要研究环境中微生物群落的基因组。元基因组分类算法是用计算机程序对一个样本中的多个不同种属的微生物基因序列分离开来,以提供给生物学家进行深入研究的参考。元基因组分类算法主要分为两大类,一是基于同源性的分类,二是基于组成成分的分类。基于同源性分类主要利用序列的物种同源性信息,基于组成成分的分类方法通常提取序列的l-mer特征利用计算机科学领域的聚类方法,如k-means聚类。该文介绍基于组成成分的元基因组分类算法及其实例,并分析各实例算法的特点。最后总结并展望基于组成成分的元基因组算法当前方法及未来可以做的优化。  相似文献   

16.
陈光  郑影 《福建电脑》2003,(12):17-18
随着生物信息学数据的大量积累,通过对核酸序列或蛋白质序列进行比对,可以有效地分析和预测一些新发现基因的功能。序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,可以推测二者有共同的进化祖先;二个具有同源性的生物,其序列具有一定的相似性。如果一个新测定的DNA序列与一已知的基因序列很相似,那么,该基因序列含有与已知基因序列相似的结构和功能。因此,序列比对方法的应用对于基因结构和功能的研究具有较大的实际意义。双序列比对是序列分析的常用方法之一,是多序列比对和数据库搜索的基础。传统的双序列比对算法时间和空间复杂度均为O(m*n)。我们在介绍传统的动态规划算法后,将就时间和空间方面提出建议,并加以具体描述。  相似文献   

17.
目的 结合图像处理技术和英文字母特征,提出一种基于聚类和全局优化的双面碎纸拼接复原算法.方法 利用图像处理技术,消除同行字母的处于不同高度部分.再分别基于处理前后的碎纸片,分别提出碎片与行之间匹配程度以及刻画相邻碎片两两匹配的特征参数(像素差与相关系数).利用上述两特征参数,将问题转化为两个子优化问题:子问题1,基于像素差的最大值最小目标,建立全局最优聚类模型,确定所有碎片的行分类;子问题2,将同一行中相邻碎片的匹配问题转化为旅行商问题(TSP),并基于相关系数对每一行建立全局优化模型.结果 仿真实验结果表明,图像处理技术能有效地消除同行字母处于不同高度的负影响.同时,获取的两个特征参数能很好地刻画碎片之间的匹配,复原准确率达到90%以上.结论 实验结果表明,该算法能保证高复原率且降低复杂度,对碎纸机碎纸拼接复原具有良好的实际意义.  相似文献   

18.
20世纪90年代,人类基因组计划的启动,有力推动了DNA测序工作的发展。寻找某些特征片段(功能片段)在序列中的分布规律,对遗传学、生物信息学等都有重要的应用意义。在教学、研究中发现,应用数学分析软件MATLAB的字符串处理功能,可以容易地达到功能片段分析的目的,本系统通过分析DNA序列链之间的关联程度,构造出特征矩阵,根据模糊C均值算法较准确的对DNA序列的集合进行了分类,同时利用matlab的图像显示功能将聚类的最终结果清楚明了的显示在图像中,使用户能清楚的看到聚类效果。本系统主要研究了DNA链碱基序列分析、多个DNA链特征矩阵提取、模糊C均值聚类算法分类DNA等三大部分。首先该系统对DNA序列的总长度和功能序列的长度进行了测量,利用一维数组确定功能片段在DNA序列中的位置特征,从而完成了对DNA碱基序列的分析;其次该系统对用户给出的数个DNA链进行序列之间的特征分析,统计出每个序列的(A,T,C,G)碱基密度,得到一个特征矩阵,有效的为模糊聚类分析方法提供数据来源。最终该系统应用模糊C均值聚类算法,利用特征矩阵的数值,将数个DNA序列聚类并分为两类。  相似文献   

19.
20世纪90年代,人类基因组计划的启动,有力推动了DNA测序工作的发展。寻找某些特征片段(功能片段)在序列中的分布规律,对遗传学、生物信息学等都有重要的应用意义。在教学、研究中发现,应用数学分析软件MATLAB的字符串处理功能,可以容易地达到功能片段分析的目的,本系统通过分析DNA序列链之间的关联程度,构造出特征矩阵,根据模糊C均值算法较准确的对DNA序列的集合进行了分类,同时利用matlab的图像显示功能将聚类的最终结果清楚明了的显示在图像中,使用户能清楚的看到聚类效果。本系统主要研究了DNA链碱基序列分析、多个DNA链特征矩阵提取、模糊C均值聚类算法分类DNA等三大部分。首先该系统对DNA序列的总长度和功能序列的长度进行了测量,利用一维数组确定功能片段在DNA序列中的位置特征,从而完成了对DNA碱基序列的分析;其次该系统对用户给出的数个DNA链进行序列之间的特征分析,统计出每个序列的(A,T,C,G)碱基密度,得到一个特征矩阵,有效的为模糊聚类分析方法提供数据来源。最终该系统应用模糊C均值聚类算法,利用特征矩阵的数值,将数个DNA序列聚类并分为两类。  相似文献   

20.
李海林  杨丽彬 《控制与决策》2013,28(11):1718-1722

数据降维和特征表示是解决时间序列维灾问题的关键技术和重要方法, 它们在时间序列数据挖掘中起基础性作用. 鉴于此, 提出一种新的时间序列数据降维和特征表示方法, 利用正交多项式回归模型对时间序列实现特征提取, 结合特征序列长度对时间序列的拟合分析结果, 运用奇异值分解方法对特征序列进一步降维处理, 进而得到保存大部分信息且维数更低的特征序列. 数值实验结果表明, 新方法可以在维度较低的特征空间下取得较好的数据挖掘聚类和分类效果.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号