面向超大规模的中文文本N-gram串统计 N-gram Chinese Characters Counting for Huge Text Corpora期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

面向超大规模的中文文本N-gram串统计

引用本文：	余一骄,刘芹. 面向超大规模的中文文本N-gram串统计[J]. 计算机科学, 2014, 41(4): 263-268

作者姓名：	余一骄刘芹

作者单位：	华中师范大学语言学系武汉430079;武汉大学计算机学院武汉430072

基金项目：	本文受教育部人文社会科学研究项目:逻辑推理与词义匹配相融合的中文网页语义检索技术研究(10YJA740120),湖北省教育厅人文社会科学研究项目:基于语义理解的中文网页检索方法研究(2010b032)资助

摘要：	中文文本统计软件Cici高效地实现了对超大规模中文文本语料N-gram串频次的统计与检索。通过统计不同规模中文语料库发现,当N等于6时,语料库中包含的不同N-gram汉字串数量最多。根据"句子"的平均长度和数量,可以准确估算语料库中包含的N-gram串数量。根据多数汉字串在语料库中出现频次低于10次的特点,提出对汉字串频次信息实现分段存储与排序,即对频次不超过10的汉字串独立存储,对频次高于10的汉字串进行分段排序与存储。对大规模中文文本应先进行分块统计,然后合并分块统计结果,建议分块规模约为20MB。
关键词：	汉字 N-gram 语料库排序
收稿时间：	2013-06-05
修稿时间：	2013-10-15
N-gram Chinese Characters Counting for Huge Text Corpora

YU Yi-Jiao and LIU Qin. N-gram Chinese Characters Counting for Huge Text Corpora[J]. Computer Science, 2014, 41(4): 263-268

Authors:	YU Yi-Jiao and LIU Qin

Affiliation:	Department of Linguistics,Central China Normal University,Wuhan 430079,China;Computer School,Wuhan University,Wuhan 430072,China

Abstract:

Keywords:	Chinese character N-gram Corpora Sorting
本文献已被 CNKI 等数据库收录！
	点击此处可从《计算机科学》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏