首页 | 本学科首页   官方微博 | 高级检索  
     

面向超大规模的中文文本N-gram串统计
引用本文:余一骄,刘芹. 面向超大规模的中文文本N-gram串统计[J]. 计算机科学, 2014, 41(4): 263-268
作者姓名:余一骄  刘芹
作者单位:华中师范大学语言学系 武汉430079;武汉大学计算机学院 武汉430072
基金项目:本文受教育部人文社会科学研究项目:逻辑推理与词义匹配相融合的中文网页语义检索技术研究(10YJA740120),湖北省教育厅人文社会科学研究项目:基于语义理解的中文网页检索方法研究(2010b032)资助
摘    要:中文文本统计软件Cici高效地实现了对超大规模中文文本语料N-gram串频次的统计与检索。通过统计不同规模中文语料库发现,当N等于6时,语料库中包含的不同N-gram汉字串数量最多。根据"句子"的平均长度和数量,可以准确估算语料库中包含的N-gram串数量。根据多数汉字串在语料库中出现频次低于10次的特点,提出对汉字串频次信息实现分段存储与排序,即对频次不超过10的汉字串独立存储,对频次高于10的汉字串进行分段排序与存储。对大规模中文文本应先进行分块统计,然后合并分块统计结果,建议分块规模约为20MB。

关 键 词:汉字  N-gram  语料库  排序
收稿时间:2013-06-05
修稿时间:2013-10-15

N-gram Chinese Characters Counting for Huge Text Corpora
YU Yi-Jiao and LIU Qin. N-gram Chinese Characters Counting for Huge Text Corpora[J]. Computer Science, 2014, 41(4): 263-268
Authors:YU Yi-Jiao and LIU Qin
Affiliation:Department of Linguistics,Central China Normal University,Wuhan 430079,China;Computer School,Wuhan University,Wuhan 430072,China
Abstract:
Keywords:Chinese character  N-gram  Corpora  Sorting
本文献已被 CNKI 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号