基于NLTK的中文文本内容抽取方法 |
| |
作者姓名: | 李晨 刘卫国 |
| |
作者单位: | 中南大学信息科学与工程学院,长沙,410083;中南大学信息科学与工程学院,长沙,410083 |
| |
摘 要: | NLTK是Python中用于自然语言处理的第三方模块,但处理中文文本具有一定局限性.利用NLTK对中文文本中的信息内容进行抽取与挖掘,采用同语境词提取、双连词搭配提取、概率统计以及篇章分析等方法,得到一个适用于中文文本的NLTK文本内容抽取框架,及其具体的实现方法.经实证分析表明,在抽取结果中可以找到反映文本特点的语料内容,得到抽取结果与文本主题具有较强相关性的结论.
|
关 键 词: | 自然语言处理 中文文本 自然语言处理工具包 |
收稿时间: | 2018-05-28 |
修稿时间: | 2018-06-19 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《计算机系统应用》浏览原始摘要信息 |
|
点击此处可从《计算机系统应用》下载免费的PDF全文 |
|