首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于统计抽词和格律的全宋词切分语料库建立   总被引:1,自引:0,他引:1  
全宋词切分语料库的建立是计算机研究宋词的基础。本文对宋词中“词”的界定提出了自己的看法,并在综合考虑统计抽词方法和基于诗词格律切分方法各自优点的基础上,提出建立全宋词切分语料库的新方法。我们首先通过统计抽词来抽取结合程度较强的二字词,并结合相关资源建立词表;在此基础上,结合宋词的格律特点按照一定的规则来对全宋词进行了切分。实验证明,本文中的方法具有较好的效果。  相似文献   

2.
字音转换问题一直是中文语音合成系统中不可缺少的模块,而多音字消歧是字音转换的核心问题。多音字的词性对于读音消歧有着特殊重要的意义。该文利用词性到读音映射关系将多音字划分为a类和b类。针对不同类别,我们提出一种多层面多音字消歧方案,分别从词性和语义层面上进行消歧,使用决策树模型和手工规则体系对多音字进行处理,实验结果表明,从词性层面上消歧利用决策树模型更好,而手工规则体系在语义层面上消歧更加有效。对每类分别从相应层面进行多音字消歧,正确率从baseline的80.74%达到了96.58%。  相似文献   

3.
多音字消歧是普通话语音合成系统中字音转换模块的核心问题。选择了常见易错的33个多音字和24个多音词作为研究对象,构建了一个平均每个多音字(词)5 000句的语料库,并且提出了一种结合决策树和基于转换的错误驱动的学习(Transformation- Based error-driven Learning,TBL)的混合算法。该方法根据决策树的指导,自动生成TBL算法的模板,避免了手工总结模板这一费时费力的过程。实验结果表明,该方法生成的模板与手工模板性能相当,其平均准确率达90.36%,明显优于决策树。  相似文献   

4.
中文TTS系统中多音字的一种解决方案   总被引:2,自引:0,他引:2  
汉语多音字的情况为中文文语转换TTS(Text To Speech)系统的建立带来了很大的困难.针对中文文语转换系统中的多音字问题,通过构建多音字词库和非多音字词库,将多音字以词汇的形式区分,并且通过对多音字词库和非多音字词库的结构形式的构造,减少了词库的冗余信息,提高了词汇语音的查找速率.实验证明该方案可以解决中文TTS中的多音字问题.  相似文献   

5.
在基于文本生成的信息隐藏算法研究中,如何在保证生成文本质量的同时提高隐藏容量是主要存在的挑战.为此本文提出一种基于宋词生成的构造式信息隐藏算法.首先对宋词文本数据进行预训练,然后基于自回归语言模型搭建宋词生成模型;其次根据宋词词牌固有的格式信息设计格律模块,在宋词生成阶段,需要向生成模型输入该格律模块,并通过符号集设计、编码等综合作用,生成宋词诗句.在利用宋词生成模型进行秘密信息隐藏的过程中,对格律模块进行重构,通过平仄韵词牌、词牌格式模板、关键字、韵律及押韵字符的不同选择,有效实现秘密信息的隐藏.信息提取是隐藏的逆过程,且提取过程不需要利用宋词生成模型,仅需根据模板和词典库来进行索引即可,提高了信息提取的效率.实验结果表明,本文提出的算法能够生成格式严格、韵律清晰、句子完整性高的宋词,且生成的宋词文本的信息隐藏容量均值可达21比特/句、安全性高,整体性能优于已报道的主流算法.  相似文献   

6.
解决多音字字-音转换的一种统计学习方法   总被引:4,自引:1,他引:4  
字-音转换是语音合成系统中的一个重要模块,其中多音词和以单字词形式存在的多音字读音的确定一直是个没有很好解决的问题。本文通过对大量标注有正确拼音的语料的统计,指出着重解决41个重点多音字和22个重点多音词就可基本解决字-音转换的问题。本文采用基于扩展的随机复杂度的随机决策列表方法自动提取多音字(词)的读音规则,将字-音转换的错误率由8.8‰降低到4.4‰。规则的训练和测试的材料的标注是一个耗费人力和时间的工作,而训练材料的数量和质量又直接影响最终的结果。本文提出一种半自动的语料标注流程,可以节省将近一半的人工和时间。  相似文献   

7.
数据的长尾分布问题是NLP实践领域中的常见问题。以语音合成前端的多音字消歧任务为例,多音字数据的极度不均衡、尾部数据的缺乏,影响着语音合成系统的工业实用效果。该文观察到,汉语多音字的分布在“字符”与“字音”两个维度上都呈长尾特性,因此该文针对性地提出一种二重加权算法(Double Weighted, DW)。DW算法可分别与两种长尾算法:MARC,Decouple-cRT结合,进一步提升模型性能。在开源数据和工业数据上,DW算法较基线模型和两种原始算法取得了不同程度的准确率提升,为多维长尾问题提供解决方案与借鉴思路。  相似文献   

8.
德语语音合成中的字音转换研究   总被引:1,自引:1,他引:0       下载免费PDF全文
字音转换是德语语音合成系统不得不解决的难题。可以使用基于规则驱动的迭代有限状态转录机来解决这一问题。在该算法中,首先在一个词库的基础上制定一些字音转换规则,然后在此规则的基础上通过迭代有限状态转录机将德语单词中的所有字素转换成音素。经过对整个词库进行算法测试,单词的字音转换正确率可以达到94.4%。  相似文献   

9.
文语转换系统中基于语料的汉语自动分词研究   总被引:9,自引:0,他引:9  
基于一个实际的文语转换系统,介绍了经的一些处理方法,采用了一种改进的最大匹配法,可以切分出所有的交集歧义,提出了一基于统计模型的算法来处理其中的多交集歧义的字段,并用穷举法和一睦简单的规则相结合的方法从实用角度解决多音字的异读问题以及中文姓名的自动识别方法,解决了汉语切分歧义、多音词处理、,中文姓名的自动识别问题,达到实现一文语转换的。  相似文献   

10.
宋代名家诗自动注音研究及系统实现   总被引:4,自引:0,他引:4  
本文以160 万字的宋代名家诗为研究对象,介绍了一个宋诗自动注音系统的设计与实现。系统的资源包括语料库、知识库以及信息库;所采用的多音字自动注音策略有以下三种:条件概率策略、互信息策略以及规则策略。本系统的特色是将现代基于统计的语言模型与宋诗自身的音韵特点相结合来实现宋诗的自动注音。实验结果是令人满意的。  相似文献   

11.
文本信息隐藏是将秘密信息隐藏到文本中的一种技术。与加密后的密文通常是无意义的一串编码不同,文本隐藏生成的隐写文本看起来与普通文本无异,不容易引人怀疑。但是因为文本本身的冗余度低,与图像、视频等载体相比,文本隐藏算法较少且容量偏低。该文提出了一个新的利用宋词的文本隐藏算法,并设计实现了由编码器、解码器、词典和词牌模板组成的系统。秘密信息被隐藏到在字数、行数、句子形式、格律和韵脚等方面符合某个词牌的隐写宋词中。系统在保证良好安全性的同时,嵌入率达到了16%。据我们所知,这是第一个利用特殊体裁的文本信息隐藏算法。  相似文献   

12.
《软件》2019,(9):144-147
汉语中有1000多个多音字,正确的判断多音字并进行注音,是计算机拼音合成的难点之一。为了实现对多音字的自动识别标注,采用最大向前匹配、最大向后匹配法对词句进行分词处理。再构建条件概率表,对多音字进行整理归类。最后系统的进行注音。通过《中文拼音词典》模块、文本分词模块、《汉字条件概率表》模块、《汉字条件概率表》计算模块、自动产生文本拼音模块构成拼音自动生产系统。  相似文献   

13.
语音发音系统中,多音字的发音一直以来都是个难题。文章针对多音字中出现的一种远距离约束词语-离合词进行了研究,以此来关联多音字的发音。考虑到离合词的特点,提出了触发对的概念,然后用互信息来计算词语的相关度以此对多音字进行读音消歧,实验结果表明,从词语约束层面来考虑多音字对多音离合词的发音有很好的效果。  相似文献   

14.
传统的文本隐写方案很难均衡隐藏容量和隐蔽性之间的矛盾。利用宋词载体语义丰富、句法灵活的特点,文章提出BERT(Bidirectional Encoder Representations from Transformers)词嵌入结合Attention机制的Seq2Seq模型生成隐写宋词的算法。该算法采用BERT词嵌入作为生成模型的语义向量转换部分,其丰富的词向量空间保证了生成句子间语义的连贯性,提高了生成宋词的质量。另外,该算法采用格律模板和互信息选词方法约束隐写语句的生成,增强了隐藏算法的安全性。通过与现有文本隐藏算法在嵌入率方面的对比实验和分析表明,文章所提算法的嵌入率相比Ci-stega提高了7%以上,且在安全性和鲁棒性方面均有良好的表现。  相似文献   

15.
杜静  戴华东  杨学军 《计算机工程》2005,31(6):76-78,116
页迁移技术是实现CC-NUMA访存局部性优化的一种重要策略,其实现涉及到虚存系统中物理地址到虚拟地址的转换,传统做法需要遍历所有进程的虚拟地址空间,效率低、开销大.针对此问题,介绍了一种在操作系统内核中高效实现物理地址到虚拟地址转换的技术-一反向页表技术,并着重阐述了反向页表在页迁移策略中的应用.  相似文献   

16.
周昌乐  游维  丁晓君 《软件学报》2010,21(3):427-437
主要针对宋词这种特殊的汉语诗歌体裁,开展了有关自动生成算法及其实现方法的探索性研究.研究工作主要根据宋词特点,设计了基于平仄的编码方式、基于句法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的选择策略,采用部分映射和启发式交叉算子和启发式变异算子,从而构建了一种基于遗传算法的宋词生成计算模型并进行了系统实现.实验结果表明,所建立的计算模型及其软件系统,初步实现了机器自动生成宋词的目标,对于给定的主题词和词牌,基本上能够自动生成有一定欣赏价值的宋词.论文的工作也填补了我国在汉语诗歌自动生成研究方面的不足  相似文献   

17.
异构数据库的组合转换及其现实应用   总被引:1,自引:0,他引:1  
针对现实应用中不同数据库产品之间的异构性所引起的不便,解决异构库中多张表的组合转换和数据过滤等问题,该文阐述了一种异构数据库的组合转换策略。此策略借助Jbuilder开发平台,用Java语言进行实现,应用在上海大学成人教育招生系统中,解决了教委录取数据库与成教管理系统数据库之间的异构问题。  相似文献   

18.
页迁移技术是实现CC-NUMA存储优化的一种重要策略,它动态开发了数据的局部性。页迁移策略的实现涉及到虚存系统中物理地址到虚拟地址的转换,传统做法需要遍历所有进程的虚拟地址空间,效率低、开销大。针对此问题,本文介绍了一种能够高效实现物理地址到虚拟地址转换的技术——反向页表技术,着重介绍了反向页表的设计、实现和维护方法。  相似文献   

19.
涂金德  李永平 《计算机应用》2005,25(7):1716-1718
在GBK汉字库范围内,通过分析姓氏汉字的读音和多音字用作名字时的习惯读音,去掉了在姓名中很少使用的读音,从而大幅度降低了首音重码;然后对仍有重码的汉字进行智能处理,进一步减少了重码选择;最后生成了首音转换码表,并设计转换算法,能够实现首音码的高效自动转换,使重码选择率从14.4%降为3.7%。  相似文献   

20.
在俄语语音信息处理的资源建设中,字音转换技术起到了至关重要的作用。该文尝试对基于SAMPA的俄语音素集进行改进设计,使标音结果能够反映俄语单词的重音位置及元音弱化现象。依据改进的新音素集构建了包含20 000词的俄语发音词典。在此基础上,实现了一种数据驱动的俄语字音转换算法,将加权有限状态转化器(WFST)应用于算法的对齐、建模和解码过程中。首先利用期望最大化算法以“多对多”的方式对俄语字音进行对齐,然后将对齐结果通过联合N-gram模型训练,并转化为WFST发音模型,最后通过WFST解码算法对任意单词的发音进行预测。交叉验证实验结果表明,平均词形正确率为62.9%,平均音素正确率为92.2%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号