首页 | 本学科首页   官方微博 | 高级检索  
     

面向社会媒体的开放领域新词发现
引用本文:张华平,商建云.面向社会媒体的开放领域新词发现[J].中文信息学报,2017,31(3):55-61.
作者姓名:张华平  商建云
作者单位:1. 北京理工大学 计算机学院,北京 100081;
2. 北京市海量语言信息处理与云计算应用工程研究中心,北京 100081;
3. 北京理工大学 软件学院,北京 100081
基金项目:国家自然科学基金 (61272362);国家重点基础研究发展计划(973)(2013CB329601)
摘    要:随着互联网的发展,社会媒体已经逐渐发展成为信息交流的重要载体。该文针对社会媒体文本的领域分布广、口语化程度高等特征,提出一种面向社会媒体的开放领域新词发现算法。此算法所有步骤均为线性时间复杂度,并且在分析过程中有效降低了内存的使用,从而能够实时处理社会媒体所产生的大规模数据。在6.6 GB 社会媒体文本语料中的新词发现准确率达到了87.2%,在普通计算机上新词发现速度可达2.6 MB/s。与传统算法相比,该算法在社会媒体领域的大规模语料中速度及精度上均有较好的效果。

关 键 词:社会媒体  新词发现  条件随机场  

Social Media-oriented Open Domain New Word Detection
ZHANG Huaping,SHANG Jianyun.Social Media-oriented Open Domain New Word Detection[J].Journal of Chinese Information Processing,2017,31(3):55-61.
Authors:ZHANG Huaping  SHANG Jianyun
Affiliation:1. Department of Computer, Beijing Institute of Technology, Beijing 100081, China;
2. Beijing Engineering Research Center of Massive Language Information Processing and
Cloud Computing Application, Beijing 100081,China;
3. School of Software Tachnology, Beijing Institute of Technology, Beijing 100081, China
Abstract:With the development of Internet, social media has become an important channel for information transmission. Focused on characteristics of the informal language in various domains inherent in social media, this paper proposes a social media-oriented open domain new word detection method. This approach can be executed in linear time complexity with a reduced memory usage, which enables real time processing large size data produced by social media. The experiment on a 6.6GB social media corpus reveal a processing speed of 2.6MB/s in normal PC, as well as 87.2% precision.
Keywords:social media  Chinese new word extraction  conditional random field  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号