首页 | 本学科首页   官方微博 | 高级检索  
     

基于内容主题的语料库系统设计与实现*
引用本文:李文翔,晏蒲柳,夏德麟.基于内容主题的语料库系统设计与实现*[J].计算机应用研究,2004,21(10):149-151.
作者姓名:李文翔  晏蒲柳  夏德麟
作者单位:武汉大学,电信学院,湖北,武汉,430072
基金项目:国家自然科学基金资助项目(90204008)
摘    要:介绍了笔者开发制作的汉语语料库系统的特点、功能,以及系统的设计思想和总体框架。系统以2001年《人民日报》电子文本为生语料,实现了KWIC索引、词表生成、词语搭配分析和分类主题词提取等功能,能够为网络信息挖掘和自然语言处理研究提供丰富而真实的语言环境。

关 键 词:语料库  KWIC索引  N-最短路径  主题词  词语搭配
文章编号:1001-3695(2004)10-0149-03
修稿时间:2003年7月8日

Design and Implementation of Theme based Corpus System
LI Wen-xiang,YAN Pu-liu,XIA De-lin.Design and Implementation of Theme based Corpus System[J].Application Research of Computers,2004,21(10):149-151.
Authors:LI Wen-xiang  YAN Pu-liu  XIA De-lin
Affiliation:(School of Electronic Information,Wuhan University,Wuhan Hubei 430072,China)
Abstract:This paper introduced the character and function of a theme- based Chinese corpus system,and put forward the design scheme and framework of the system.The corpus took the texts of "People's Daily Year 2001" as the raw material.With the corpus users can obtain KWIC concordance,wordlist,collocation analysis and theme words for specified topic, it provides researchers rich and real language environment for Web information mining and natural language processing studies.
Keywords:Corpus  KWIC Concordance  N-Shortest Path  Theme Word  Collocation
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号