首页 | 本学科首页   官方微博 | 高级检索  
     

维吾尔文Bigram文本特征提取
引用本文:阿力木江·艾沙,库尔班·吾布力,吐尔根·依布拉音. 维吾尔文Bigram文本特征提取[J]. 计算机工程与应用, 2015, 0(3): 216-221,228
作者姓名:阿力木江·艾沙  库尔班·吾布力  吐尔根·依布拉音
作者单位:1. 新疆大学 网络与信息技术中心,乌鲁木齐 830046; 新疆多语种信息技术重点实验室,乌鲁木齐 830046
2. 新疆大学 信息科学与工程学院,乌鲁木齐 830046; 新疆多语种信息技术重点实验室,乌鲁木齐 830046
基金项目:国家自然科学基金(No.61363064,No.61163028)
摘    要:文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。

关 键 词:Bigram文本特征  χ2统计量  互信息  维吾尔语

Bigram feature extraction for Uyghur text
Alimjan AYSA , Kurban UBUL , Turgun IBRAHIM. Bigram feature extraction for Uyghur text[J]. Computer Engineering and Applications, 2015, 0(3): 216-221,228
Authors:Alimjan AYSA    Kurban UBUL    Turgun IBRAHIM
Affiliation:Alimjan AYSA;Kurban UBUL;Turgun IBRAHIM;Network and Information Technology Center, Xinjiang University;Xinjiang Laboratory of Multi-language Information Technology;College of Information Science and Engineering, Xinjiang University;
Abstract:
Keywords:Bigram text feature  χ2 statistics  mutual information  Uyghur Language
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号