首页 | 本学科首页   官方微博 | 高级检索  
     

面向Internet的中文新词语检测
引用本文:邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):2-10.
作者姓名:邹纲  刘洋  刘群  孟遥  于浩  西野文人  亢世勇
作者单位:1.中科院计算技术研究所数字化实验室2.富士通研究开发中心有限公司3.烟台师范学院中文系
摘    要:随着社会的飞速发展,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法,通过大规模地分析从Internet上采集而来的网页,建立巨大的词和字串的集合,从中自动检测新词语,而后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出采集语料中存在的新词语。根据该方法实现的系统,可以寻找不限长度和不限领域的新词语,目前正应用于《现代汉语新词语信息(电子)词典》的编纂,在实用中大大的减轻了人工查找新词语的负担。

关 键 词:计算机应用  中文信息处理  新词语  自动检测  
文章编号:1003-0077(2004)06-0001-09
修稿时间:2004年7月28日

Internet-oriented Chinese New Words Detection
ZOU Gang ,LIU Yang ,LIU Qun ,MENG Yao ,YU Hao ,Nishino Fumihito ,KANG Shi-yong.Internet-oriented Chinese New Words Detection[J].Journal of Chinese Information Processing,2004,18(6):2-10.
Authors:ZOU Gang  LIU Yang  LIU Qun  MENG Yao  YU Hao  Nishino Fumihito  KANG Shi-yong
Affiliation:1.Institute of Computing Technology , Chinese Academy of Sciences2.Fujitsu Research & Development Center Co. , LTD3.Yantai Normal University Chinese Department
Abstract:With the fast development of the society,more and more new words come out in our life. It is one of the important topics in Chinese natural language processing to collect those new words. A method is presented for detecting these new words automaitcally in this paper. Through analysing webpages grabbed from the Internet, a large word and string set is built, which new words are detected from and filtered by rules. At last new words which exist in the webpages grabbed are extracted. The system built in this way can find new words in any length and in any field.Now it is applying to the compilation of Modern Chinese New Word Information Dictionary. It reduced human labor a lot in practise.
Keywords:computer application  Chinese language processing  new word  automatic detection
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号