首页 | 本学科首页   官方微博 | 高级检索  
     

基于NLTK的中文文本内容抽取方法
作者姓名:李晨  刘卫国
作者单位:中南大学信息科学与工程学院,长沙,410083;中南大学信息科学与工程学院,长沙,410083
摘    要:NLTK是Python中用于自然语言处理的第三方模块,但处理中文文本具有一定局限性.利用NLTK对中文文本中的信息内容进行抽取与挖掘,采用同语境词提取、双连词搭配提取、概率统计以及篇章分析等方法,得到一个适用于中文文本的NLTK文本内容抽取框架,及其具体的实现方法.经实证分析表明,在抽取结果中可以找到反映文本特点的语料内容,得到抽取结果与文本主题具有较强相关性的结论.

关 键 词:自然语言处理  中文文本  自然语言处理工具包
收稿时间:2018-05-28
修稿时间:2018-06-19
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机系统应用》浏览原始摘要信息
点击此处可从《计算机系统应用》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号