首页 | 本学科首页   官方微博 | 高级检索  
     

中文文本语料库分词一致性检验技术的初探*
引用本文:刘江,郑家恒,张虎.中文文本语料库分词一致性检验技术的初探*[J].计算机应用研究,2005,22(9):52-54.
作者姓名:刘江  郑家恒  张虎
作者单位:山西大学,计算机科学系,山西,太原,030006
基金项目:国家“863”计划资助项目(2001AA4031)
摘    要:对大规模语料库中的分词不一致现象进行分析,提出了语料库分词一致性检查和校对的新方法。该方法提取词与词之间语法、语义搭配信息,利用支持向量机的理论对候选序列进行判断,给出一个切分结果,进而提高汉语语料库切分的准确率。

关 键 词:支持向量机  切分一致性  搭配
文章编号:1001-3695(2005)09-0052-03
收稿时间:2004-09-02
修稿时间:2004-10-22

Studies on the Consistency of Word-segmented Chinese Corpus
LIU Jiang,ZHENG Jia-heng,ZHANG Hu.Studies on the Consistency of Word-segmented Chinese Corpus[J].Application Research of Computers,2005,22(9):52-54.
Authors:LIU Jiang  ZHENG Jia-heng  ZHANG Hu
Abstract:This paper presents a new method to check up and proofread the consistency of word-segmented on the bases of analysis of inconsistencies of large-scale word-segmented Chinese corpus, The method picks up syntax and semantic collocation among the words, works out the result using SVM to judge the test sequences, and assures the correctness of the segment on large-scale corpus further.
Keywords:Support Vector Machine  Consistency of Segment  Collocation
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号