共查询到20条相似文献,搜索用时 78 毫秒
1.
字音转换问题一直是中文语音合成系统中不可缺少的模块,而多音字消歧是字音转换的核心问题。多音字的词性对于读音消歧有着特殊重要的意义。该文利用词性到读音映射关系将多音字划分为a类和b类。针对不同类别,我们提出一种多层面多音字消歧方案,分别从词性和语义层面上进行消歧,使用决策树模型和手工规则体系对多音字进行处理,实验结果表明,从词性层面上消歧利用决策树模型更好,而手工规则体系在语义层面上消歧更加有效。对每类分别从相应层面进行多音字消歧,正确率从baseline的80.74%达到了96.58%。 相似文献
2.
字音转换问题一直是中文语音合成系统中不可缺少的模块,而确定多音字在文章的特定环境中读什么音是其核心问题。本文以全宋词为研究对象,实现了全宋词的字音转换,其中多音字消歧方法有三种:条件策略,词性策略,格律校正。本系统采用现代汉语字音转换方法和宋词格律特点结合来实现,其中宋词字音转换的多音字标注准确率提高到96.89% 相似文献
3.
同音查询技术在管理信息系统(MIS)领域存在着广泛应用,运用该技术,用户在只知道关键字发音,不知具体拼写的情况下,只需输入发音相同的关键字,就可以迅速检索出所需要的相关信息,大大提高了检索效率。 相似文献
4.
汉语TTS系统中多音字问题的一种有效解决方案 总被引:1,自引:0,他引:1
多音字现象的存在给汉语TTS(TexttoSpeech)系统增加了难度。本文旨在提出一种解决中文TTS系统中的多音字判决问题的统一方案。这种方案基于统计学习的思想。首先构造一个基于特征的词典,该词典可以根据学习的语料动态更新。在有权值和无权值两种更新词典的方法中,通过试验对比最终选择了无权值的方法。我们采取建立规则的办法作为对词典的补充,分别用分类回归树(CART)、扩展的随机复杂度(ESC)进行了实验。通过实验,最终以CART生成的局部规则对词典进行补充,得到了较为满意的效果。 相似文献
5.
数据的长尾分布问题是NLP实践领域中的常见问题。以语音合成前端的多音字消歧任务为例,多音字数据的极度不均衡、尾部数据的缺乏,影响着语音合成系统的工业实用效果。该文观察到,汉语多音字的分布在“字符”与“字音”两个维度上都呈长尾特性,因此该文针对性地提出一种二重加权算法(Double Weighted, DW)。DW算法可分别与两种长尾算法:MARC,Decouple-cRT结合,进一步提升模型性能。在开源数据和工业数据上,DW算法较基线模型和两种原始算法取得了不同程度的准确率提升,为多维长尾问题提供解决方案与借鉴思路。 相似文献
6.
7.
8.
解决多音字字-音转换的一种统计学习方法 总被引:4,自引:1,他引:4
字-音转换是语音合成系统中的一个重要模块,其中多音词和以单字词形式存在的多音字读音的确定一直是个没有很好解决的问题。本文通过对大量标注有正确拼音的语料的统计,指出着重解决41个重点多音字和22个重点多音词就可基本解决字-音转换的问题。本文采用基于扩展的随机复杂度的随机决策列表方法自动提取多音字(词)的读音规则,将字-音转换的错误率由8.8‰降低到4.4‰。规则的训练和测试的材料的标注是一个耗费人力和时间的工作,而训练材料的数量和质量又直接影响最终的结果。本文提出一种半自动的语料标注流程,可以节省将近一半的人工和时间。 相似文献
9.
基于内容检索中的视频处理技术研究 总被引:17,自引:2,他引:17
基于内容的检索能使用户根据媒体特征对媒体内容进行检索和查询。由于多媒体数据中含有丰富的视频数据,并且是随时间动态变化的,其特征很难用一般的静态特征来描述。这给基于内容的检索带来很大困难。为了取得视频数据的特征,对视频数据的处理非常重要。本文介绍了基于内容的视频检索中视频的处理技术和方法,提出了一种渐变镜头的检测方法。讨论了基于内容的视频检索研究中值得探索的几个主要问题。 相似文献
10.
汉语词典的快速查询算法研究 总被引:5,自引:0,他引:5
汉语词典查询是中文信息处理系统的重要基础部分,对系统效率有重要的影响。本文对汉语词典查询算法研究作了简要回顾,设计实现了基于双数组TRIE机制的汉语词典查询算法,并提出了基于双编码机制的词典查询算法。最后以逐字二分法查询性能为基准,使用这两种词典询机制进行了词语直接查询和分词查询两种应用的性能测试。经过实验分析,双数组TRIE机制的词典查询算法在查询速度上提高明显,查询速度约是逐字二分法的5倍。双编码机制的的词典查询算法查询速度有一定提高,而且调整机制更加灵活。 相似文献
11.
12.
该文采用联合熵算法(Union Entropy,UE)初步确定了蒙古文停用词,接着从初步确定的蒙古文停用词中去掉蒙古文实体名词及同形异义词,再通过对英文停用词和蒙古文停用词的词性比较,确定了蒙古文停用词表。最后用蒙古文停用词表和英文停用词表进行了文档信息检索的对比实验。实验结果表明,用该文所述方法确定的蒙古文停用词表进行蒙古文文档检索,比用英文停用词翻译成蒙古文进行蒙古文文档检索的准确率更高。 相似文献
13.
本文的重点是应用句法分析提高汉语信息检索的性能。本文使用定制的PCFG句法分析算法提取相邻实词的关系。在TREC Mandarin的实验证实相邻词关系对信息检索的作用:R—Precision从38.66%提高到39.74%,面向用户系统的重要指标——返回20个文档时的精确率由55.16%提高到57.89%,平均精确率从39.28%提高到40.34%。 相似文献
14.
微博话题随着移动互联网的发展变得火热起来,单个热门话题可能有数万条评论,微博话题的立场检测是针对某话题判断发言人对该话题的态度是支持的、反对的或中立的.本文一方面由Word2Vec训练语料库中每个词的词向量获取句子的语义信息,另一方面使用TextRank构建主题集作为话题的立场特征,同时结合情感词典获取句子的情感信息,最后将特征选择后的词向量使用支持向量机对其训练和预测完成最终的立场检测模型.实验表明基于主题词及情感词相结合的立场特征可以获得不错的立场检测效果. 相似文献
15.
本文对信息处理技术中各种分词方法进行了研究,针对目前分词方法无法识别网络中不断出现的新词,设计了一种新的基于统计的分词方法。该方法避开现有的分词方法中的复杂语法规则,无需词典的支持,很好地解决了新词不断出现的问题,而且分词速度快,具有重要的理论和实用价值。 相似文献
16.
事件检测主要研究从非结构化文本中自动识别事件触发词,实现所属事件类型的正确分类。与英文相比,中文需要经过分词才能利用词汇信息,还存在“分词-触发词”不匹配问题。针对中文语言特性与事件检测任务的特点,本文提出一种基于多词汇特征增强的中文事件检测模型,通过外部词典为字级别模型引入包含多词汇信息的词汇集,以利用多种分词结果的词汇信息。同时采用静态文本词频统计与自动分词工具协同决策词汇集中词汇的权重,获取更加精确的词汇语义。在ACE2005中文数据集上与现有模型进行实验对比分析,结果表明本文方法取得了最好的性能,验证了该方法在中文事件检测上的有效性。 相似文献
17.
18.
面向信息检索的自适应中文分词系统 总被引:16,自引:0,他引:16
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势. 相似文献
19.
20.
针对移动增强现实中图像检索技术耗时长导致的实时性不高的问题,提出了一种 基于感知哈希和视觉词袋模型结合的图像检索方法。图像检索过程中,在保证一定正确率的基 础上加快了检索速度。首先,对数据集图像使用改进的感知哈希技术处理,选取与查询相似的 图像集合,达到筛选图像数据集的作用;然后,对相似图像集使用视觉词袋模型进行图像检索, 选取和查询图像中目标一致的目标图像。实验结果表明,该方法相比较视觉词袋模型算法检索 的平均正确率提高了 3.2%,检索时间缩短了 102.9 ms,能够满足移动增强现实中图像检索的实 时性要求,为移动增强现实系统提供了有利的条件。 相似文献