首页 | 本学科首页   官方微博 | 高级检索  
     

汉维语短语搭配的识别和对齐
引用本文:禹龙,田生伟,杨飞宇.汉维语短语搭配的识别和对齐[J].计算机应用与软件,2011,28(6):43-46.
作者姓名:禹龙  田生伟  杨飞宇
作者单位:1. 新疆大学网络中心,新疆乌鲁木齐,830046
2. 新疆大学信息科学与工程学院,新疆乌鲁木齐,830046
3. 新疆大学国际文化交流学院,新疆乌鲁木齐,830046
基金项目:国家自然科学基金项目(60963017,60963018); 国家社科基金项目(10BTQ045); 新疆自治区高校科研计划项目(XJEDU2009I05)
摘    要:提出一种简单实用的汉维语短语搭配的抽取方法.该方法不需要汉语分词、词性标注等预处理工作,根据语料中汉语字和维语单词的共现信息,避免语料中个别词汇数目极少而共现信息值较大出现噪音,采用t检验消除,相对于利用分词和词性标注等技术的抽取方法,该算法简单且时间效率较高.实验结果表明,该方法利用较小规模的语料库也能达到较好的短语...

关 键 词:双语语料  短语搭配  对齐

CHINESE-UYGHUR PHRASES COLLOCATION AND ALIGNMENT
Yu Long,Tian Shengwei,Yang Feiyu.CHINESE-UYGHUR PHRASES COLLOCATION AND ALIGNMENT[J].Computer Applications and Software,2011,28(6):43-46.
Authors:Yu Long  Tian Shengwei  Yang Feiyu
Affiliation:Yu Long1 Tian Shengwei2 Yang Feiyu31(Net Center,Xinjiang University,Urumqi 830046,Xinjiang,China)2(School of Information Science and Engineering Technology,China)3(College of International Cultural Exchange,China)
Abstract:This dissertation puts forward a simple and practical extraction method for Chinese and Uyghur phrases collocation.The method does not require Chinese word segmentation,POS tagging and other pre-processing works,according to co-occurrence information of Chinese characters and Uyghur words in the corpus,it avoids the existence of the noise caused by sparseness of exceptional words but with quite big co-occurrence information value in the corpus and uses t-test to eliminate the noise.Compared with traditional...
Keywords:Bilingual corpora Phrases collocation Alignment  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号