首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
目的 目前针对舌头的语音同步动画技术还未得到广泛的研究。在此背景下,提出了一种基于生理模型的舌头动画合成方法。方法 首先构建了一个精细的、能够在肌肉激励下产生逼真舌头变形的舌头生理模型;其次利用该舌头模型合成了大量的舌头运动样本,并据此通过学习得到一个从肌肉激励到舌头轮廓的转换模型;然后对采集的动态2维舌头轮廓数据进行运动参数估计以得到与音素对应的体素(肌肉激励序列和刚体位移序列);最后将体素按一定的排列方式输入到舌头生理模型进行仿真以生成相应的舌头动画。结果 该系统可以合成听觉效果逼真的语音和视觉效果逼真且与合成语音同步的舌头动画。结论 本文方法可以根据汉语普通话或其他语言的2维舌头轮廓数据构建音素—体素数据库,并据此合成该语言对应的高真实感的3维舌头动画。  相似文献   

2.
低资源语音识别是当今语音界研究的热点问题之一,也是多语言小语种语音识别技术在实际应用中所面临的重要挑战之一。本文回顾并总结了低资源语音识别的 发展历史和研究现状,重点介绍了低资源语音识别在声学特征、声学模型和语言模型方面的若干关键技术研究进展。具体内容包括发音特征、多语言瓶颈特征、子空间高斯混合模型、卷积神经网络声学模型和递归神经网络语言模型,然后介绍了针对低资源语音识别的公开关键词搜索(Open keyword search,OpenKWS)评测,最后对低资源语音识别进行了总结和展望。  相似文献   

3.
目的 传统的光伏面板故障检测主要依靠人工巡检,效率低下且误检率很高,而流行的基于机器视觉的智能检测方法又面临缺少大量负样例造成故障检测模型准确性偏低的问题。针对上述问题,本文提出一种基于对抗训练的半监督异常检测模型,通过应用梯度中心化(gradient centralization,GC)和Smooth L1损失函数,使模型具有更好的准确性和鲁棒性。方法 通过构建半监督异常检测模型并定义目标函数,将正常的光伏面板图像作为正样例原图输入半监督异常检测模型进行模型训练。然后将待测光伏面板图像输入到训练好的半监督异常检测模型,生成该待测图像对应的重建图像。最后通过计算待测原图像与其重建图像隐空间向量之间的误差来判断该待测光伏面板是否存在异常。结果 本文以浙江某光伏电站采集的光伏面板为实验对象,将本文方法与Pre-trained VGG16(Visual Geometry Group 16-layer network)、AnoGAN (anomaly generative adversarial network)、GANomaly等方法进行比较,AUC (area under curve)分别提高了0.12、0.052和0.033。结论 实验结果证明,本文提出的基于生成对抗网络的半监督异常检测模型大幅提高了光伏面板故障检测的准确率。  相似文献   

4.
目的 基于非负矩阵分解的高光谱图像无监督解混算法普遍存在着目标函数对噪声敏感、在低信噪比条件下端元提取和丰度估计性能不佳的缺点。因此,提出一种基于稳健非负矩阵分解的高光谱图像混合像元分解算法。方法 首先在传统基于非负矩阵分解的解混算法基础上,对目标函数加以改进,用更加稳健的L1范数作为重建误差项,提高算法对噪声的适应能力,得到新的无监督解混目标函数。针对新目标函数的非凸特性,利用梯度下降法对端元矩阵和丰度矩阵交替迭代求解,进而完成优化求解,得到端元和丰度估计值。结果 分别利用模拟和真实高光谱数据,对算法性能进行定性和定量分析。在模拟数据集中,将本文算法与具有代表性的5种无监督解混算法进行比较,相比于对比算法中最优者,本文算法在典型信噪比20 dB下,光谱角距离(spectral angle distance,SAD)增大了10.5%,信号重构误差(signal to reconstruction error,SRE)减小了9.3%;在真实数据集中,利用光谱库中的地物光谱特征验证本文算法端元提取质量,并利用真实地物分布定性分析丰度估计结果。结论 提出的基于稳健非负矩阵分解的高光谱无监督解混算法,在低信噪比条件下,能够获得较好的端元提取和丰度估计精度,解混效果更好。  相似文献   

5.
目的 现有基于结构分析的高分辨率SAR影像建筑物检测方法,只考虑了直线和L形结构建筑物,并且依赖建筑物高亮线条处阴影区作为建筑物识别的主要特征;当处于复杂场景时,阴影区受制于背景较暗或建筑物密集而无法准确得到,导致建筑物检测误差大、检测率低。针对上述问题,提出一种基于形态学层级分析的高分辨率SAR影像无监督建筑物检测算法。方法 该方法基于单幅单极化高分辨率SAR影像,首先利用改进的形态学交替滤波算子有效抑制其固有的斑点噪声,大大剔除了同质区背景噪声的干扰;然后利用层级分析形态学差分属性断面算法来实现对SAR影像建筑物的几何结构特征的提取;最后结合特征融合和属性阈值分割等后处理步骤得到复杂场景下建筑物提取信息。结果 将上述方法在建筑物密集的城区SAR影像中实验,通过与其他方法对比分析,具有检测率高、误差小的特点,准确率和召回率分别为95.38%、86.31%,并对降低虚警率方面有明显的优势。结论 将形态学交替滤波与形态学属性滤波的改进与结合,在对不同走向、尺寸和形状的高密度建筑物检测中具有较好的适应性。  相似文献   

6.
韩洁  郭擎  李安 《中国图象图形学报》2017,22(12):1788-1797
目的 目前针对复杂场景高分辨率遥感影像道路提取多采用监督分类方法,但需要人工选择样本,自动化程度低且具有不稳定性。基于像元级的方法,提取完整度低且易产生椒盐噪声;面向对象的方法易产生粘连问题。为了提高道路提取的完整度、准确度和自动化程度,提出一种基于非监督分类和几何—纹理—光谱特征的道路提取方法。方法 首先考虑光谱特征利用非监督分类进行初步分割,结合基于纹理特征分类的结果得到初始道路区域。然后根据道路特征建立一套完整的非道路区域滤除体系:边缘滤波断开道路和非道路的连接、纹理滤波滤除大面积非道路区域、形状滤波去除剩余小面积非道路区域。最后利用张量投票算法得到连贯、平滑的道路中心线。结果 选择复杂场景下的高分辨率IKONOS影像和QuickBird影像进行实验,与国内外基于像素和面向对象的两种有代表性的道路提取方法进行对比,采用完整率、正确率、检测质量3个评价指标进行定量评价。实验结果表明该方法相比于其他算法在完整率、正确率和检测质量上平均提高26.61%、5.57%和26.77%。定性分析结果表明,本文方法可以有效改善椒盐噪声和粘连现象。此外本文方法的自动化程度更高。结论 提出了一种基于非监督分类和几何—纹理—光谱特征的高分辨遥感影像道路提取方法,非监督相对于监督分类的方法有更高的自动化程度,复杂场景下的道路提取融合几何—纹理—光谱特征有效避免了基于像元级道路提取易产生的椒盐噪声现象和面向对象道路提取易产生的粘连现象。该方法适用于高分辨率遥感影像城市道路提取,能够得到较高的完整度、准确度以及自动化程度。非监督分类和多特征结合的道路提取方法有广阔的应用前景。  相似文献   

7.
目的 传统的轨道检测算法受环境干扰因素大导致检测效率低,基于卷积神经网络(CNN)算法的轨道检测结果缺乏对于对象的细腻、独特刻画且过多依赖可视化后处理技术,因此本文提出一种结合多尺度信息的条件生成对抗网络(CGAN)轨道线检测算法。方法 在生成器网络中采用多粒度结构将生成器分解为全局和局部两个部分;在判别器网络中采用多尺度共享卷积结构,进一步监督生成器的训练;引入蒙特卡罗搜索技术通过对生成器的中间状态进行搜索,并将结果再送入到判别器中进行对比。结果 在井下巷道场景测试集中,本文方法取得了82.43%像素精度和0.621 8的平均交并比,并且对轨道的检测可以达到95.01%的准确率;与现有的语义分割的算法相比,表现出了优越性。结论 本文方法能够有效应用于井下复杂环境,一定程度上解决了传统的图像处理算法和卷积神经网络算法存在的问题,从而有效服务于井下自动驾驶。  相似文献   

8.
目的 人脸年龄估计技术作为一种新兴的生物特征识别技术,已经成为计算机视觉领域的重要研究方向之一。随着深度学习的飞速发展,基于深度卷积神经网络的人脸年龄估计技术已成为研究热点。方法 本文以基于深度学习的真实年龄和表象年龄估计方法为研究对象,通过调研文献,分析了基于深度学习的人脸年龄估计方法的基本思想和特点,阐述其研究现状,总结关键技术及其局限性,对比了常见人脸年龄估计方法的性能,展望了未来的发展方向。结果 尽管基于深度学习的人脸年龄估计研究取得了巨大的进展,但非受限条件下年龄估计的效果仍不能满足实际需求,主要因为当前人脸年龄估计研究仍存在以下困难:1)引入人脸年龄估计的先验知识不足;2)缺少兼顾全局和局部细节的人脸年龄估计特征表达方法;3)现有人脸年龄估计数据集的限制;4)实际应用环境下的多尺度人脸年龄估计问题。结论 基于深度学习的人脸年龄估计技术已取得显著进展,但是由于实际应用场景复杂,容易导致人脸年龄估计效果不佳。对目前基于深度学习的人脸年龄估计技术进行全面综述,从而为研究者解决存在的问题提供便利。  相似文献   

9.
目的 运动目标检测在许多计算机视觉任务中发挥了重要的作用。背景建模是运动目标检测中传统而又常用的方法。然而,许多背景建模方法是基于像素点的,对背景方面的考虑过于简单,难于处理真实视频。最近,将基于低秩和稀疏分解的鲁棒主成分分析应用于运动目标检测成为计算机视觉领域内的研究热点。为使更多国内外运动目标检测的研究者对鲁棒主成分分析方法进行探索和应用,本文对其进行系统综述。方法 融入最新研究进展,基于误差抑制、贝叶斯理论、时间和空间信息、多特征和多因素耦合,对各种国内外的鲁棒主成分分析模型进行归纳,并理论分析其优缺点。结果 本文采用变化检测数据集(change detection dataset)中不同场景的视频序列来对不同算法进行对比实验。从实验结果可知,属于第3类方法的DECOLOR 的检测效果优于其他算法,在均值对比中得到的召回率、精确率和F-measure分别为0.7、0.706和0.66。总体来说,当前改进算法都能有效地弥补最初鲁棒主成分分析方法的缺陷,提高了运动目标检测的精度。结论 鲁棒主成分分析在运动目标检测上取得了较多的研究与应用成果,在智能视频监控应用领域拥有广阔的应用前景。但是,其仍需针对鲁棒主成分分析存在的一些局限性进行深入的研究。融入前景运动目标在视频中的先验知识是基于鲁棒主成分分析的运动目标检测的发展趋势。  相似文献   

10.
目的 弱监督物体检测是一种仅利用图像类别标签训练物体检测器的技术。近年来弱监督物体检测器的精度不断提高,但在如何提升检出物体的完整性、如何从多个同类物体中区分出单一个体的问题上仍面临极大挑战。围绕上述问题,提出了基于物体布局后验概率图进行多物体图像增广的弱监督物体检测方法ProMIS(probability-based multi-object image synthesis)。方法 将检出物体存储到物体候选池,并将候选池中的物体插入到输入图像中,构造带有伪边界框标注的增广图像,进而利用增广后的图像训练弱监督物体检测器。该方法包含图像增广与弱监督物体检测两个相互作用的模块。图像增广模块将候选池中的物体插入一幅输入图像,该过程通过后验概率的估计与采样对插入物体的类别、位置和尺度进行约束,以保证增广图像的合理性;弱监督物体检测模块利用增广后的多物体图像、对应的类别标签、物体伪边界框标签训练物体检测器,并将原始输入图像上检到的高置信度物体储存到物体候选池中。训练过程中,为了避免过拟合,本文在基线算法的基础上增加一个并行的检测分支,即基于增广边界框的检测分支,该分支利用增广得到的伪边界框标注进行训练,原有基线算法的检测分支仍使用图像标签进行训练。测试时,本文方法仅使用基于增广边界框的检测分支产生检测结果。本文提出的增广策略和检测器的分支结构在不同弱监督物体检测器上均适用。结果 在Pascal VOC(pattern analysis, statistical modeling and computational learning visual object classes)2007和Pascal VOC 2012数据集上,将该方法嵌入到多种现有的弱监督物体检测器中,平均精度均值(mean average precision,mAP)平均获得了2.9%和4.2%的提升。结论 本文证明了采用弱监督物体检测伪边界框标签生成的增广图像包含丰富信息,能够辅助弱监督检测器学习物体部件、整体以及多物体簇之间的区别。  相似文献   

11.
In this paper, we describe several approaches to language-independent spoken term detection and compare their performance on a common task, namely “Spoken Web Search”. The goal of this part of the MediaEval initiative is to perform low-resource language-independent audio search using audio as input. The data was taken from “spoken web” material collected over mobile phone connections by IBM India as well as from the LWAZI corpus of African languages. As part of the 2011 and 2012 MediaEval benchmark campaigns, a number of diverse systems were implemented by independent teams, and submitted to the “Spoken Web Search” task. This paper presents the 2011 and 2012 results, and compares the relative merits and weaknesses of approaches developed by participants, providing analysis and directions for future research, in order to improve voice access to spoken information in low resource settings.  相似文献   

12.
稀缺资源语言神经网络机器翻译研究综述   总被引:1,自引:0,他引:1  
李洪政  冯冲  黄河燕 《自动化学报》2021,47(6):1217-1231
作为目前主流翻译方法的神经网络机器翻译已经取得了很大突破, 在很多具有丰富数据资源的语言上的翻译质量也不断得到改善, 但对于稀缺资源语言的翻译效果却仍然并不理想. 稀缺资源语言机器翻译是目前机器翻译领域的重要研究热点之一, 近几年来吸引了国内外的广泛关注. 本文对稀缺资源语言机器翻译的研究进行比较全面的回顾, 首先简要介绍了与稀缺资源语言翻译相关的学术活动和数据集, 然后重点梳理了目前主要的研究方法和一些研究结论, 总结了每类方法的特点, 在此基础上总结了不同方法之间的关系并分析了目前的研究现状. 最后, 对稀缺资源语言机器翻译未来可能的研究趋势和发展方向进行了展望,并给出了相关建议.  相似文献   

13.

In artificial intelligence, abstraction has been mainly studied as a mapping between languages in relation to problem-solving, with the aim of reducing the complexity of the task. However, abstraction has a much larger scope in reasoning; we are investigating, in this article, how abstraction can be used in concept representation. To this aim, we propose a novel, perception-based model of abstraction, which originates from the observation that conceptualization of a domain, even though involving entities belonging to several epistemological levels, is nevertheless primarily based on perception. This view has been recently advocated by Goldstone and Barsalou in cognitive science. A model of representation/abstraction is then proposed and its application to a real-world problem of robot visual perception and categorization is presented.  相似文献   

14.
汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源.当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭代自学习的方法不能得到有效的双语词向量表示,致使双语词典抽取模型准确度较低.研究表明,可比语料中相似...  相似文献   

15.
目的 在传统车辆目标检测问题中,需要针对不同图像场景选择适合的特征。为此提出一种基于快速区域卷积神经网络(Fast R-CNN)的场景图像车辆目标发现方法,避免传统车辆目标检测问题中需要设计手工特征的问题。方法 该方法基于深度学习卷积神经网络思想。首先使用待检测车辆图像定义视觉任务。利用选择性搜索算法获得样本图像的候选区域,将候选区域坐标与视觉任务示例图像一起输入网络学习。示例图像经过深度卷积神经网络中的卷积层,池化层计算,最终得到深度卷积特征。在输入时没有规定示例图像的规格,此时得到的卷积特征规格不定。然后,基于Fast R-CNN网络结构,通过感兴趣区域池化层规格化特征,最后将特征输入不同的全连接分支,并行回归计算特征分类,以及检测框坐标值。经过多次迭代训练,最后得到与指定视觉任务强相关的目标检测模型,具有训练好的权重参数。在新的场景图像中,可以通过该目标检测模型检测给定类型的车辆目标。结果 首先确定视觉任务包含公交车,小汽车两类,背景场景是城市道路。利用与视觉任务强相关的测试样本集对目标检测模型进行测试,实验表明,当测试样本场景与视觉任务相关度越高,且样本中车辆目标的形变越小,得到的车辆目标检测模型对车辆目标检测具有良好的检测效果。结论 本文提出的车辆目标检测方法,利用卷积神经网络提取卷积特征代替传统手工特征提取过程,通过Fast R-CNN对由示例图像组成定义的视觉任务训练得到了效果良好的车辆目标检测模型。该模型可以对与视觉任务强相关新场景图像进行效果良好的车辆目标检测。本文结合深度学习卷积神经网络思想,利用卷积特征替代传统手工特征,避免了传统检测问题中特征选择问题。深层卷积特征具有更好的表达能力。基于Fast R-CNN网络,最终通过多次迭代训练得到车辆检测模型。该检测模型对本文规定的视觉任务有良好的检测效果。本文为解决车辆目标检测问题提供了更加泛化和简洁的解决思路。  相似文献   

16.
汉语语音检索的集外词问题与两阶段检索方法   总被引:2,自引:0,他引:2  
该文针对大规模汉语语音检索任务提出汉语语音检索中的集外词问题和针对集外查询词的两阶段检索方法。汉语语音识别和检索中,集外词可以以词表词序列的形式被识别和检索到,因此被认为不存在集外词问题;该文发现集外查询词性能远远低于集内查询词,将此问题定义为汉语语音检索任务的集外词问题,并提出两阶段的检索方法,第一阶段通过模糊音素匹配的方法提高查全率,第二阶段通过词格修正的方法提高查准率。实验表明,两阶段的检索方法极大的提高了典型集外查询词的检索性能,FOM指标相对基线系统提高了24.1%。  相似文献   

17.
ABSTRACT

Due to the widespread usage of electronic devices and the growing popularity of social media, a lot of text data is being generated at the rate never seen before. It is not possible for humans to read all data generated and find what is being discussed in his field of interest. Topic modeling is a technique to identify the topics present in a large set of text documents. In this paper, we have discussed the widely used techniques and tools for topic modeling. There has been a lot of research on topic modeling in English, but there is not much progress in the resource-scarce languages like Hindi despite Hindi being spoken by millions of people across the world. In this paper, we have discussed the challenges faced in developing topic models for Hindi. We have applied Latent Semantic Indexing (LSI), Non-negative Matrix Factorization (NMF), and Latent Dirichlet Allocation (LDA) algorithms for topic modeling in Hindi. The outcomes of the topic model algorithms are usually difficult to interpret for the common user. We have used various visualization techniques to represent the outcomes of topic modeling in a meaningful way. Then we have used the metrics like perplexity and coherence to evaluate the topic models. The results of Topic modeling in Hindi seem to be promising and comparable to some results reported in the literature on English datasets.  相似文献   

18.
ContextFeature location aims to identify the source code location corresponding to the implementation of a software feature. Many existing feature location methods apply text retrieval to determine the relevancy of the features to the text data extracted from the software repositories. One of the preprocessing activities in text retrieval is term-weighting, which is used to adjust the importance of a term within a document or corpus. Common term-weighting techniques may not be optimal to deal with text data from software repositories due to the origin of term-weighting techniques from a natural language context.ObjectiveThis paper describes how the consideration of when the terms were used in the repositories, under the condition of weighting only the noun terms, can improve a feature location approach.MethodWe propose a feature location approach using a new term-weighting technique that takes into account how recently a term has been used in the repositories. In this approach, only the noun terms are weighted to reduce the dataset volume and avoid dealing with dimensionality reduction.ResultsAn empirical evaluation of the approach on four open-source projects reveals improvements to the accuracy, effectiveness and performance up to 50%, 17%, and 13%, respectively, when compared to the commonly-used Vector Space Model approach. The comparison of the proposed term-weighting technique with the Term Frequency-Inverse Document Frequency technique shows accuracy, effectiveness, and performance improvements as much as 15%, 10%, and 40%, respectively. The investigation of using only noun terms, instead of using all terms, in the proposed approach also indicates improvements up to 28%, 21%, and 58% on accuracy, effectiveness, and performance, respectively.ConclusionIn general, the use of time in the weighting of terms, along with the use of only the noun terms, makes significant improvements to a feature location approach that relies on textual information.  相似文献   

19.

In this paper we present an implemented account of multilingual linguistic resources for multilingual text generation that improves significantly on the degree of reuse of resources both across languages and across applications. We argue that this is a necessary step for multilingual generation in order to reduce the high cost of constructing linguistic resources and to make natural language generation relevant for a wider range of applications particularly, in this paper, for multilingual software and user interfaces. We begin by contrasting a weak and a strong approach to multilinguality in the state of the art in multilingual text generation. Neither approach has provided sufficient principles for organizing multilingual work. We then introduce our framework , where multilingual variation is included as an intrinsic feature of all levels of representation. We provide an example of multilingual tactical generation using this approach and discuss some of the performance, maintenance, and development issues that arise.  相似文献   

20.
We recently reported the use of Kohonen's feature map as the hidden layer of an RBF network for the recognition of spoken letters [1], and the analysis of sleep EEG [2]. The feature map was shown to act as an aid to visualization during the initial period of unsupervised learning in the hidden layer. In this paper, we again explore the topology preserving properties of Kohonen's feature map, this time for the visual interpretation of speech. It is shown that speech sounds, such as words or phonemes, may be displayed as moving trajectories on a computer screen and enhanced for ease of interpretation. A system known as the Visual Ear is introduced, in which speech from a normal speaker is displayed alongside that of a pupil learning pronunciation, enabling a visual comparison to be made between the two. The application of the Visual Ear to accelerated learning of foreign languages, or as a general speech therapy tool, are then discussed, and the limitations of the present system are highlighted.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号