首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 656 毫秒
1.
王超  俞一彪 《信号处理》2021,37(7):1339-1345
基于矢量量化变分自编码器(Vector Quantized Variational Autoencoder, VQVAE)的语音转换系统是国内外语音转换领域研究的一大热点,但是其较差的转换音质限制了模型的应用。本文在VQVAE的基础上提出一种改进的矢量量化正则变分自编码器(Vector Quantization Regularized Variational Autoencoder, VQ-REG-VAE)。在训练时,矢量量化退化为正则化项,通过矢量量化的正则约束让编码器学习生成说话人无关的语义特征,同时让解码器学习将说话人特征融合到语义特征中。在转换时,可以去掉矢量量化这一正则化项,通过编码器和解码器就能实现语音转换。由于转换时没有进行矢量量化,语义特征信息得以更好保留。客观和主观实验都表明:基于VQ-REG-VAE模型的转换语音在不降低相似度的前提下,音质比VQVAE模型有显著的提升。   相似文献   

2.
在多方面实际应用目标推动下,受国家自然科学基金资助,开展了语音合成研究.我们的目标是开发一个高质量的汉语文语转换系统.为此建立了以微机为基础的语音分析合成系统,并组成了文语转换系统,进行了初步试验.这个系统充分利用汉语语音系统的特点,选择以无调音节和声调模式为基本合成单元.相应的语音参数从自然语流中提取,并赋予每个音节若干语音特征属性,为利用语音规则控制音节的声学参数提供了可能性.建立了供合成用的语音库和基本合成规则,利用语言学知识调整合成语言的韵律特征,使合成语言具有高可懂度和较好的自然度.语音合成利用硬件实现,文语转换可以实时进行.合成语音的发音速度可以在较大的范围内改变。  相似文献   

3.
叶俊民  罗达雄  陈曙 《电子学报》2021,49(2):401-407
文本中存在的表达冗余、词汇误用和内容缺失等错误会显著影响文本语义的理解,当前解决上述文本错误的纠错模型存在两个主要的问题:当前的文本纠错模型主要基于编码器-解码器框架,解码速度较慢;许多工作将错误检测和修正分离成两个任务,没有形成统一的整体.为此,提出了一种基于层次化修正框架的文本纠错模型.首先,基于预训练模型建模得到文本的多种语义表示;其次,利用文本的语义表示识别出文本中错误的位置;最后,利用层次化修正框架计算精化的修正操作并完成对错误的修正.针对公开文本纠错数据集CONLL-14进行了相关实验,结果表明本文模型比所选取的对比模型有更快的解码速度和更高的召回率.  相似文献   

4.
采用光码分多址技术的高速计算机局域网   总被引:8,自引:0,他引:8  
殷洪玺 《通信学报》1997,18(12):89-94
本文提出一种可行的适于高速计算机网络的光码分多址技术,该网络采用光正交码和光信号处理,以保证实时数据通信。提出的全光结构的快速可调光正交码编码器和解码器,可在光域中用电光开关和光延迟线实现,能支持超高速吞吐量且重构时间很短  相似文献   

5.
针对光纤通信系统在传输过程中易受光纤线路、传输设备等因素干扰的问题,提出了一种利用基于卷积神经网络的编码器-解码器来降低接收端信号误码率的方法,从而提升光纤通信系统的抗干扰能力。具体地,利用伪随机二进制序列(Pseudo-Random Binary Sequence)码作为标签信号,将受干扰后的信号作为输入信号,训练出具有恢复受扰信号能力的卷积编码器-解码器。实验结果表明,卷积编码器-解码器能降低受一定程度干扰的信号误码率,具备提升光纤通信系统抗干扰性能的能力。  相似文献   

6.
何莹男  陈喆  殷福亮 《信号处理》2020,36(6):894-901
在语音通信网络中,为获得良好的语音通信质量,抗丢包技术不可或缺。为此,本文基于 ITU G.722.1 语音编码器,提出一种分布式语音编码方法。该方法在 G.722.1 编码器的基础上,构建一个互补编码器;然后在编码端,对同一帧语音分别用 G.722.1 编码器和其互补编码器进行语音编码,并发送编码结果;在解码端,在接收到其中任一语音码流时,用 G.722.1 解码器进行解码,其语音质量不低于 G.722.1 编码器的解码结果,而在接收到两个语音码流时,用 G.722.1 解码器先分别对两个语音码流进行解码,然后对解码结果进行联合处理,其最终的语音质量有明显提升,即有一定编码增益。仿真实验结果表明,本文分布式语音编码方法的抗丢包效果明显,相对于原始编解码器其语音质量进一步提升。   相似文献   

7.
基于ACELP的嵌入式语音编码算法   总被引:1,自引:0,他引:1  
范睿  鲍长春  李锐 《通信学报》2007,28(10):48-54
为实现对激励信号的精细描述,提出了一种基于ACELP模型的嵌入式语音编码算法,该算法通过逐层增加脉冲数以及采用一种新的自适应码书结构,能够保证各层编码的相对独立性以及编码器参数的最佳匹配。与以往基于ACELP模型的嵌入式编码算法相比,实现的编码器能够获得具有嵌入结构的码流,不仅能够保证核心层的合成语音质量,而且在增强层也取得了与对应速率的现有标准编码器相当的合成语音质量。  相似文献   

8.
一种LDPC码编码器设计方案的研究   总被引:6,自引:0,他引:6  
介绍一种 L DPC码的编码器设计方案。L DPC码编码器设计的关键问题是构造低密度奇偶校验矩阵 ,文中以矩阵 -作为子矩阵 ,通过 -对矩阵适当的组合排列 ,构造出低密度奇偶校验矩阵 ,由该矩阵构造出规则 L DPC码 ,并设计准规则 L DPC码编码器。  相似文献   

9.
赵书安 《电子器件》2021,44(6):1417-1420
针对变分自编码器在文本分类应用中经常发生的后验塌陷问题,提出了一种基于球面自编码器的文本分类方法。首先,将变分自编码器中隐变量所服从的分布由多元高斯分布替换为冯米塞斯-费舍尔球面分布,从理论上解决了后验塌陷,得到了高质量的文本特征表示。在三个文本分类数据集上的实验结果表明,所提出的方法优于原始的变分自编码器文本分类方法。  相似文献   

10.
本论文主要研究利用语言预训练模型和深度学习,来进行文本序列到指令序列的翻译.在文本序列到指令序列翻译的领域内,优势模型按结构划分主要分为2类,一种是端到端模型,另外一种是在编码器和解码器中间引入中间逻辑表示层.与以往的方法不同,本文提出了名为混合排序填充网络的新模型.该模型将问题与一列单独组合,利用语言预训练模型获取编码,然后根据选择的模板,划分并填充不同的子任务,生成完整的指令序列.这种方法很好地利用了语言预训练模型的特点,避免引入专门的中间语义表示层或者解码器,减少了模型复杂度.在自构建的文本到指令序列数据集上取得了很好的翻译效果,翻译结果的逻辑准确率可达到89.1%.  相似文献   

11.
王侃  曹开臣  徐畅  潘袁湘  牛新征 《电讯技术》2019,59(10):1175-1181
传统的文本摘要方法,如基于循环神经网络和Encoder-Decoder框架构建的摘要生成模型等,在生成文本摘要时存在并行能力不足或长期依赖的性能缺陷,以及文本摘要生成的准确率和流畅度的问题。对此,提出了一种动态词嵌入摘要生成方法。该方法基于改进的Transformer模型,在文本预处理阶段引入先验知识,将ELMo(Embeddings from Language Models)动态词向量作为训练文本的词表征,结合此词对应当句的文本句向量拼接生成输入文本矩阵,将文本矩阵输入到Encoder生成固定长度的文本向量表达,然后通过Decoder将此向量表达解码生成目标文本摘要。实验采用Rouge值作为摘要的评测指标,与其他方法进行的对比实验结果表明,所提方法所生成的文本摘要的准确率和流畅度更高。  相似文献   

12.
Fuzzy logic systems for engineering: a tutorial   总被引:16,自引:0,他引:16  
A fuzzy logic system (FLS) is unique in that it is able to simultaneously handle numerical data and linguistic knowledge. It is a nonlinear mapping of an input data (feature) vector into a scalar output, i.e., it maps numbers into numbers. Fuzzy set theory and fuzzy logic establish the specifics of the nonlinear mapping. This tutorial paper provides a guided tour through those aspects of fuzzy sets and fuzzy logic that are necessary to synthesize an FLS. It does this by starting with crisp set theory and dual logic and demonstrating how both can be extended to their fuzzy counterparts. Because engineering systems are, for the most part, causal, we impose causality as a constraint on the development of the FLS. After synthesizing a FLS, we demonstrate that it can be expressed mathematically as a linear combination of fuzzy basis functions, and is a nonlinear universal function approximator, a property that it shares with feedforward neural networks. The fuzzy basis function expansion is very powerful because its basis functions can be derived from either numerical data or linguistic knowledge, both of which can be cast into the forms of IF-THEN rules  相似文献   

13.
针对当前神经网络声学建模中数据混用困难的问题,文中提出了一种基于听感量化编码的神经网络语音合成方法。通过设计听感量化编码模型学习海量语音在音色、语种、情感上的不同差异表征,构建统一的多人数据混合训练的神经网络声学模型。在统一的听感量化编码声学模型内通过数据共享和迁移学习,可以显著降低合成系统搭建的数据量要求,并实现对合成语音的音色、语种、情感等属性的有效控制。提升了神经网络语音合成的质量和灵活性,一小时数据构建语音合成系统自然度可达到4.0MOS分,达到并超过普通说话人水平。  相似文献   

14.
In this paper, we present a method for modeling a complex scene from a small set of input images taken from widely separated viewpoints and then synthesizing novel views. First, we find sparse correspondences across multiple input images and calibrate these input images taken with unknown cameras. Then one of the input images is chosen as the reference image for modeling by match propagation. A sparse set of reliably matched pixels in the reference image is initially selected and then propagated to neighboring pixels based on both the clustering-based light invariant photoconsistency constraint and the data-driven depth smoothness constraint, which are integrated into a pixel matching quality function to efficiently deal with occlusions, light changes and depth discontinuity. Finally, a novel view rendering algorithm is developed to fast synthesize a novel view by match propagation again. Experimental results show that the proposed method can produce good scene models from a small set of widely separated images and synthesize novel views in good quality.  相似文献   

15.

In today’s highly computerized society, detection and recognition of text present in natural scene images is complex and difficult to be properly recognized by human vision. Most of the existing algorithms and models mainly focus on detection and recognition of text from still images. Many of the recent machine translation systems are built using the Encoder-Decoder framework which works on the format of encoding the sequence of input and then based on the encoded input, the output is decoded. Both the encoder and the decoder use an attention mechanism as an interface, making the model complex. Aiming at this situation, an alternative method for recognition of texts from videos is proposed. The proposed approach is based on a single Two-Dimensional Convolutional Neural Network (2D CNN). An algorithm for extracting features from an image called the crosswise feature extraction is also proposed. The proposed model is tested and shows that crosswise feature extraction gives better recognition accuracy by requiring a lesser period of time for training than the conventional feature extraction technique used by CNN.

  相似文献   

16.
A new approach for an efficient text analyser is proposed. A prosody generator-driven method is employed to design an efficient text analyser for Mandarin text-to-speech. A simpler structure for text analysis, a more suitable classification of linguistic features and a more efficient contribution of linguistic features to the prosody generator can be achieved. Three heuristic and theoretical methods are used to analyse and examine the capability of each linguistic feature: (1) the contribution of each linguistic feature to the prosody generator is examined experimentally; (2) the cross-influence of each linguistic feature on the prosody generator is analysed; (3) the problem of over- and under-classification of the linguistic features is inspected. Finally, these three analytic results are referenced to design an efficient text analyser. In total 35,243 Chinese characters are employed to examine the performance of our text analyser. Only 79 ms CPU time on a P4-1.4G PC is needed for word segmentation and POS tagging. Correction rates of 97.5% and 93.2% are achieved for word segmentation and POS tagging, respectively. This confirms that the performance of our text analyser is very good. Moreover, a Mandarin text-to-speech system is implemented to inspect the performance of the text analysis and the contribution to the prosody generator. More natural and fluent speech is obtained under the lower computation. The MOS of prosody of the synthesised and original speech are 4.2 and 4.8, respectively, which is reasonably good.  相似文献   

17.
18.
脱婷  马慧芳  李志欣  赵卫中 《电子学报》2000,48(11):2131-2137
针对短文本特征稀疏性问题,提出一种熵权约束稀疏表示的短文本分类方法.考虑到初始字典维数较高,首先,利用Word2vec工具将字典中的词表示成词向量形式,然后根据加权向量平均值对原始字典进行降维.其次,利用一种快速特征子集选择算法去除字典中不相关和冗余短文本,得到过滤后的字典.再次,基于稀疏表示理论在过滤后的字典上,为目标函数设计一种熵权约束的稀疏表示方法,引入拉格朗日乘数法求得目标函数的最优值,从而得到每个类的子空间.最后,在学习到的子空间下通过计算待分类短文本与每个类中短文本的距离,并根据三种分类规则对短文本进行分类.在真实数据集上的大量实验结果表明,本文提出的方法能够有效缓解短文本特征稀疏问题且优于现有短文本分类方法.  相似文献   

19.
利用范本构建语法模板生成仿自然语言隐写文本   总被引:1,自引:0,他引:1  
基于模仿函数的Mimicry文本隐写法利用上下文无关文法(CFG)构造树形结构,生成的含密仿自然文本在语义连贯性方面存在缺陷。该文提出一种改进的Mimicry文本隐写方法,从选择范本和设计语法模板两方面提高语义的连贯性和一致性。经过范本训练,在模板设计中运用置换文本库,考虑文本中各词汇、短语和句子的可置换性。模板还运用Huffman编码,充分考虑语句和词组的出现频度,以改善含密文本的自然度。这样生成的含密文本语义连贯性好,符合自然语言在字符、词汇、句法等方面的统计特性,有利于对抗人工和机器检测。  相似文献   

20.
当前基于预训练说话人编码器的语音克隆方法可以为训练过程中见到的说话人合成较高音色相似性的语音,但对于训练中未看到的说话人,语音克隆的语音在音色上仍然与真实说话人音色存在明显差别。针对此问题,本文提出了一种基于音色一致的说话人特征提取方法,该方法使用当前先进的说话人识别模型TitaNet作为说话人编码器的基本架构,并依据说话人音色在语音片段中保持不变的先验知识,引入一种音色一致性约束损失用于说话人编码器训练,以此提取更精确的说话人音色特征,增加说话人表征的鲁棒性和泛化性,最后将提取的特征应用端到端的语音合成模型VITS进行语音克隆。实验结果表明,本文提出的方法在2个公开的语音数据集上取得了相比基线系统更好的性能表现,提高了对未见说话人克隆语音的音色相似度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号