首页 | 本学科首页   官方微博 | 高级检索  
     

不规则文本中商品名称识别的特征选择
引用本文:杨美妮,何涛,沈静,张建军.不规则文本中商品名称识别的特征选择[J].计算机工程与科学,2016,38(10):2153-2157.
作者姓名:杨美妮  何涛  沈静  张建军
作者单位:;1.海军工程大学理学院;2.中国科学院武汉文献情报中心
基金项目:国家自然科学基金(61402516)
摘    要:传统的命名实体识别任务多见于人名、地名、机构名这些普通的命名实体,且大多采用规则文本进行研究。随着电子商务和互联网广告的不断发展,如何从用户的各种不规则的上下文信息中自动识别出商品名称这一特殊的命名实体成为了一个需要解决的问题。为了解决这一问题,建立了一个最大熵模型用于识别论坛发帖这种不规则文本中的商品名称,并探讨了多种特征对于识别效果的影响。这些特征不仅包括传统命名实体识别方法中所使用的局部特征和布朗聚类特征,还包括词的分布式表示这种比较新颖的特征。这些特征按照各种不同的方式进行组合作为模型的输入。在CPROD01评测数据集上的实验结果表明,布朗聚类特征能够有效地提高商品名称识别系统的准确性。

关 键 词:商品名称  不规则文本  最大熵模型  词的分布式表示
收稿时间:2015-09-06
修稿时间:2016-10-25

Feature selection for product name recognition in informal texts
YANG Mei-ni,HE Tao,SHEN Jing,ZHANG Jian-jun.Feature selection for product name recognition in informal texts[J].Computer Engineering & Science,2016,38(10):2153-2157.
Authors:YANG Mei-ni  HE Tao  SHEN Jing  ZHANG Jian-jun
Affiliation:(1.College of Science,Naval University of Engineering,Wuhan 430033; 2.Wuhan Library of Chinese Academy of Sciences,Wuhan 430071,China)
Abstract:Most previous studies on named entity recognition (NER) focus on common names such as persons,organizations,and locations in formal texts.With the development of e-commerce and online advertising,how to recognize product names which are special named entities in informal users context becomes more and more important.We design a maximum entropy model to recognize product names from forum posts and explore the impact of various features on the performance.These features include not only traditional features used for NER,but also distributed word representations which are novel ones obtained from the new area of machine learning.We compare the results of the experiments using different feature combinations as inputs.Experiments on the CPROD01 dataset show that the Brown cluster features can improve the accuracy of the product name recognition system.
Keywords:product name  informal text  maximum entropy model  distributed representation of words  
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号