首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
传统的命名实体识别任务多见于人名、地名、机构名这些普通的命名实体,且大多采用规则文本进行研究。随着电子商务和互联网广告的不断发展,如何从用户的各种不规则的上下文信息中自动识别出商品名称这一特殊的命名实体成为了一个需要解决的问题。为了解决这一问题,建立了一个最大熵模型用于识别论坛发帖这种不规则文本中的商品名称,并探讨了多种特征对于识别效果的影响。这些特征不仅包括传统命名实体识别方法中所使用的局部特征和布朗聚类特征,还包括词的分布式表示这种比较新颖的特征。这些特征按照各种不同的方式进行组合作为模型的输入。在CPROD01评测数据集上的实验结果表明,布朗聚类特征能够有效地提高商品名称识别系统的准确性。  相似文献   

2.
基于最大熵的汉语人名地名识别方法研究   总被引:7,自引:0,他引:7  
构建了一个基于最大熵原理的汉语人名地名自动识别混合模型.该模型分为训练和识别两个模块.先从训练语料中抽取特征,利用最大熵方法对特征进行训练.然后使用经过训练的特征,并结合动态词表和少量规则,对测试文本中的汉语人名地名进行识别.达到了比较满意的识别效果.最后对实验结果进行了分析.  相似文献   

3.
融合多特征的最大熵汉语命名实体识别模型   总被引:2,自引:0,他引:2  
最大熵模型能有效整合多种约束信息,对于汉语命名实体识别具有很好的适用性,因此,将其作为基本框架,提出一种融合多特征的最大熵汉语命名实体识别模型,该模型集成局部与全局多种特征,同时为降低搜索空间并提高处理效率,而引入了启发式知识,基于SIGHAN 2008命名实体评测任务测试数据的实验结果表明,所建立的混合模式是一种组合统计模型与启发式知识的有效汉语命名实体识别模式,基于不同测试数据的实验说明,该方法针对不同测试数据源具有一致性.  相似文献   

4.
中文微博命名实体识别   总被引:5,自引:2,他引:3  
微博这一媒体形式的迅速发展为命名实体识别提供了一个新的载体.根据微博文本的特点,提出针对中文微博的命名实体识别方法.首先,对微博文本做规范化处理,消除由于微博表达不规范造成的干扰;在建立中文人名库、常用地点库等知识库的基础上,选取适合微博的特征模板,使用条件随机场方法进行实体识别;同时,将正确的识别结果添加到知识库中以提升识别效果.在真实微博数据上的实验表明,该方法能够有效地完成中文微博的命名实体识别任务.  相似文献   

5.
针对基于字符表示的中文医学命名实体识别模型嵌入信息单一、缺失词边界和结构信息的问题,文中提出了一种融合多特征嵌入的医学命名实体识别模型。首先,将字符映射为固定长度的嵌入表示;其次,引入外部资源构建词汇特征,该特征能够补充字符的潜在词组信息;然后,根据中文的象形文字特点和文本序列特点,分别引入字符结构特征和序列结构特征,使用卷积神经网络对两种结构特征进行编码,得到radical-level词嵌入和sentence-level词嵌入;最后,将得到的多种特征嵌入进行拼接,输入长短期记忆网络编码,并使用条件随机场输出实体预测结果。将自建中文医疗数据和CHIP_2020任务提供的医疗数据作为数据集进行实验,实验结果表明,与基准模型相比,所提模型同时融合了词汇特征和文本结构特征,能够有效识别医学命名实体。  相似文献   

6.
基于混合统计模型的汉语命名实体识别方法   总被引:4,自引:0,他引:4       下载免费PDF全文
本文针对三种重要的命名实体,即人名、地名、组织名,提出了一种隐马尔可夫模型(HMM)和最大熵模型(ME)相结合的汉语命名实体识别的方法.该方法的特点在于:使命名实体识别和词性标注两个任务一体化;融合两种统计模型进行命名实体识别,其中HMM从整体上(句子范围内)对命名实体识别进行约束,ME则在局部范围内(当前词的上下文范
范围)估计一个词串被标记为某种命名实体的概率.实验表明,这种方法能较好地识别上述三种命名实体.  相似文献   

7.
牛晓妍 《福建电脑》2008,24(4):72-74
本文针对人名的特点,建立了特征模板,并在此基础上提取了特征集,利用特征选择算法提取了有效特征,并建立了一个基于最大熵的人名识别模型。基于最大熵模型,探索性地构建了一个人名识别的系统,取得了较好的效果。该系统将潜在人名发现和使用最大熵模型进行标注两个阶段的工作有机地结合到一起。较好地解决了人名竞争问题;并对重点模块的算法进行了详细描述。  相似文献   

8.
针对军事文本中的命名实体,提出一种基于条件随机场模型的半监督命名实体识别方法,旨在将人员军职军衔名、军事装备名、军用物资名、军事设施名、军事机构名(含部队番号)以及军用地名等军事命名实体的识别融合到一个统一的技术框架中。该方法针对军事文本的语法特点建立高效的特征集合,建立条件随机场模型对军事命名实体进行识别,并依次使用基于词典的方法和基于规则的方法对识别结果进行校正。实验表明,该方法在军事文本中能够出色地完成命名实体识别任务,在测试语料上的F-值最高达到90.9%,接近通用领域中命名实体识别的水平。  相似文献   

9.
针对汉语人名识别的难点,基于最大熵算法提出了结合多知识、多模型的识别方法,充分考虑了人名的内部特征(小颗粒特征)和人名的语境信息。论文的主要贡献是:将概率信息赋予最大熵模型,极大提高人名的准确率和召回率;细化了分类模型,将人名识别分成中国人名识别、外国译名识别和单字人名识别;提出动态优先级方法来防止一个外国译名被部分识别为一个或几个中国人名。实验测试数据为1998年1月的人民日报和Sighan(2006)命名实体测试语料。测试结果表明,人民日报(1998-01)的召回率为90.06%,准确率为89.27%;Sighan(MSRA)语料的召回率为95.39%,准确率为96.71%;Sighan(LDC)语料的召回率为87.56%,准确率为91.04%。实验结果证明,提出的人名识别方法是非常有效的。  相似文献   

10.
面向商务信息抽取的产品命名实体识别研究   总被引:12,自引:5,他引:12  
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hidden Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7% ,86.9% ,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号