排序方式: 共有15条查询结果,搜索用时 15 毫秒
1.
文档表示是文本聚类的重要组成部分,该文旨在通过改进文档表示改进文本聚类。同义词和多义词现象是文档表示所面临的重要挑战。为此该文提出了词义类簇模型(Sense Cluster Model,SCM),在词义类簇空间上表示文档。SCM首先构造词义类簇空间,然后将文档表示在词义类簇空间上,获得每篇文档在每个词义类簇的概率。在词义类簇空间构造这一步骤中,首先利用词义归纳技术从文本中自动发现词义,接着采用词义聚类技术识别相同或者相似的词义从而获得词义类簇。词义类簇空间构造后,该文首先进行词义消歧,然后利用词义消歧的结果将文档表示在词义空间上。实验表明,SCM在标准测试集上的性能优于基线系统以及经典话题模型LDA。 相似文献
2.
3.
连续汉语语音识别中基于归并的音节切分自动机 总被引:4,自引:0,他引:4
文章研究并实现了汉语连续语音中的音节自动切分算法——基于归并的音节切分自动机(merging-based syllable detection automaton,简称MBSDA)算法.MBSDA算法利用了包括语音的短时能量、过零率和基音周期在内的多种特征参数,把特征参数高度相似的相邻帧(1帧或若干帧)的语音信号进行“归并(merging)”,形成“归并类似段(merged similar segment,简称MSS)”,它们被认定属于同一音节的相同状态.这些MSS经过一个包含若干状态的“音节切分自动机( 相似文献
4.
该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了“伪双语数据”的教学方法,利用教师模型翻译单语数据获得的合成双语数据改进学生模型,然后提出了“负对数似然—知识蒸馏联合优化”教学方法,除了利用合成双语数据,还利用教师模型获得的目标语言词语概率分布作为知识,从而在知识蒸馏框架下提高学生模型的翻译质量。实验证明,在中英和德英翻译任务上,使用该方法训练的学生模型不仅在领域内测试集上显著超过了基线学生模型,而且在领域外测试集上的泛化性能也得到了提高。 相似文献
5.
汉语语音听写机技术的研究与实现 总被引:3,自引:0,他引:3
文章从声学基元和词法树两个方面对连续语音识别和汉语语音听写机中声学层面的搜索策略进行了分析,提出了基于统计知识的帧同步搜索算法和基于词法约束的词搜索树结构,构成了声学层面的双层搜索网络.算法中利用了统计知识,包括声学层面的差分状态驻留信息和特征变化量信息等.实验结果表明,基于知识的搜索策略使连续语音识别的性能提高了36.6%.文章还介绍了N-Gram统计语言模型的修正退化频度估计算法和搜索算法原理.通过对多年研究成果的分析,实现了一个汉语语音听写机的引擎,并在PC机上构建了两个系统:非特定人汉语语音听写机 相似文献
6.
基于trigram语体特征分类的语言模型自适应方法 总被引:1,自引:0,他引:1
本文从书面语和口语存在的差异出发,提出了语言模型的语体自适应方法。自适应采用了几种不同的计数意义上的插值算法。考虑Katz平滑的插值算法根据trigram单元的可信度来分配权值。基于trigram语体特征分类的自适应算法根据trigram单元的语体特征倾向动态分配权值,并选取了几种不同的权值生成函数。对口语语料做音转字的实验证明,使用这几种自适应算法可以让基准模型的性能有不同程度的提高,其中综合考虑单元可信度和特征倾向的算法效果最好,相对于本文的两个基准的汉字错误率下降率分别达到了50.2%和23.7%。 相似文献
7.
基于中文机构名简称的检索方法研究 总被引:1,自引:0,他引:1
对于是否是中文机构名或机构名简称的自动判别,已经有广泛和深入的研究;但是对机构名简称和全称的匹配,目前鲜有研究成果。本文针对基于中文机构名简称的检索方法,研究了机构名的结构特征,总结出两种规则,定制了一个基于关键词类的分词工具,提出简称和全称匹配的一种算法,并且结合多级索引技术,实现了基于中文机构名简称的检索系统。实验结果表明,本文所提方法的准确性较好,首选准确率达到近95%,在全称机构名总数达到51万的情况下,检索平均耗时约0.21秒,达到实用要求。 相似文献
8.
汉语连续语音识别系统与知识导引的搜索策略研究 总被引:1,自引:0,他引:1
从整体上介绍了汉语连续语音识别系统的基本原理,并重点对声学和语言两个层面
的建模与搜索策略进行了分析.在对传统帧同步搜索算法进行研究的基础上,提出了基于统
计知识的帧同步搜索算法SKB-FSS.它包含了三个主要的功能层次:基于归并的音节切分自
动机产生确定的搜索边界点,由统计得到的差分状态驻留信息控制搜索过程中的状态转移,
利用词搜索树控制音节候选的扩展规模并根据动态前向预测的方法进行合理而及时的路径
剪枝.实验结果验证了该搜索策略的有效性. 相似文献
9.
10.
基于汉语语音特点的大词表语音识别系统的研究 总被引:2,自引:0,他引:2
本文探讨了汉语语音识别的若干问题,并简单介绍了一个大词表汉语语音识别系统,该系统充分考虑了汉语语音的特点,其中主要是汉语语音具有音节性比较强的特点、音节的简单声韵母结构以及汉语以词/词组为语音交流基础的特点.该系统一个显著的特点是系统可以不进行任何训练地添加新词汇,从而使得系统具有比较好的用户接口. 现在系统具有10,000多个词汇,实时测试的平均识别结果是93.1%. 相似文献