首页 | 本学科首页   官方微博 | 高级检索  
     

维吾尔语语音检索技术研究
引用本文:张力文,努尔麦麦提·尤鲁瓦斯,吾守尔·斯拉木.维吾尔语语音检索技术研究[J].中文信息学报,2014,28(5):182-186.
作者姓名:张力文  努尔麦麦提·尤鲁瓦斯  吾守尔·斯拉木
作者单位:新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046
基金项目:国家自然科学基金(61363063);973国家重点基础研究计划 (2014CB340506);新疆维吾尔自治区科技计划项目(201312104).
摘    要:随着大数据时代的到来,各种音频、视频文件日益增多,如何高效地定位关键敏感信息具有非常重要的研究意义。目前研究人员对针对英语和汉语的语音检索技术进行了深入的研究,而针对维吾尔语的语音检索技术还处于起步阶段。该文对维吾尔语语音关键词检索技术进行了研究并采用了大词汇量连续语音识别、利用聚类算法将多候选词图转换为混淆网络、倒排索引、置信度以及相关度的计算等技术和方法,对维吾尔语语音检索系统进行了研究与搭建。最后在测试集上对该系统进行测试,测试结果显示,在语音识别正确率为82.1%的情况下,检索系统的召回率分别达到97.0%和79.1%时,虚警率分别为13.5%和8.5%。

关 键 词:维吾尔语  语音检索  语音识别  词图  混淆网络  倒排索引  

Study on Uyghur Speech Retrieval
ZHANG Liwen,Nurmemet Yolwas,Wushour Silamu.Study on Uyghur Speech Retrieval[J].Journal of Chinese Information Processing,2014,28(5):182-186.
Authors:ZHANG Liwen  Nurmemet Yolwas  Wushour Silamu
Affiliation:1.College of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830046, China
Abstract:Facing with the age of big data, it is of great importance to locate key sensitive information from various audio and video that are ever-increasing. Although such teachnology named speech retrieval technology has been well addressed in Chinese and English,the Uyghur speech retrieval technology is still in its infancy. This paper investigates this issue and establishes a Uyghur speech retrieval system by using such technologies as of the large vocabulary continuous speech recognition, the confusion network for latice, the inverted index, and relevance estimation. Experimental results show that at the level of 82.1% accuracy rate for speech recognition,the system recall reaches 97.0% and 79.1%,with the false alarm rates of 13.5% and 8.5%, respectively.
Keywords:Uyghur  speech retrieval  speech recognition  lattice  Confusion Network(CN)  inversed index  
本文献已被 CNKI 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号