基于NLTK的中文文本内容抽取方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于NLTK的中文文本内容抽取方法

作者姓名：	李晨刘卫国

作者单位：	中南大学信息科学与工程学院,长沙,410083;中南大学信息科学与工程学院,长沙,410083

摘要：	NLTK是Python中用于自然语言处理的第三方模块,但处理中文文本具有一定局限性.利用NLTK对中文文本中的信息内容进行抽取与挖掘,采用同语境词提取、双连词搭配提取、概率统计以及篇章分析等方法,得到一个适用于中文文本的NLTK文本内容抽取框架,及其具体的实现方法.经实证分析表明,在抽取结果中可以找到反映文本特点的语料内容,得到抽取结果与文本主题具有较强相关性的结论.
关键词：	自然语言处理中文文本自然语言处理工具包
收稿时间：	2018-05-28
修稿时间：	2018-06-19
本文献已被万方数据等数据库收录！
	点击此处可从《计算机系统应用》浏览原始摘要信息
	点击此处可从《计算机系统应用》下载免费的PDF全文