首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
程晨 《福建电脑》2010,26(8):30-31
中文命名实体识别的研究有着重大的现实意义。本文先对信息抽取技术和其中的命名实体识别进行概述,然后简介了GATE这样一种信息抽取工具,以及使用GATE进行中文命名实体识别的规则(以货币识别为例),最后对全文进行了总结。  相似文献   

2.
针对复杂机构名难以识别的问题,提出一种CCRF与规则相结合的识别方法。以CCRF为基础,利用特征融合设计特征模板,融合相应有效规则库,为复杂机构名识别提供决策。对1998年1月的《人民日报》语料库进行开放测试,实验结果显示,机构名识别的准确率为89.92%,召回率为91.41%,F1值为90.66%。  相似文献   

3.
电子病历(EMRs)中包含着丰富的信息,如临床症状、诊断结果和药物疗效.命名实体识别(Named Entity Recognition,NER)旨在从非结构化文本中抽取命名实体,这也是从电子病历中抽取有价值信息的初始步骤.本文提出一种基于预训练模型RoBERTa-WWM (A Robustly Optimized BE...  相似文献   

4.
事件句抽取是事件抽取中的核心环节,而在金融领域中,公司名识别则是事件句抽取中的重点和难点。从金融领域的事件句抽取出发,首先充分利用互联网搜索和上市公司名信息进行公司名识别:如果一个N元组是公司名,则进行互联网搜索,其结果中包含“公司”、“集团”等字词多,同时和已经的公司名有较高的匹配度。其次,综合考虑句子位置信息、包含公司名信息、包含领域动词信息、与标题相似度四个方面特征,构造权值表达式。最终从句子集中选出金融事件句。实验表明,公司名识别方法的正确率可达82.28%,召回率达68.93%;事件句抽取的正确率可达66.83%。  相似文献   

5.
基于支持向量机方法的中文组织机构名的识别   总被引:2,自引:1,他引:1  
在应用基本的支持向量机算法的基础上,提出了一种分步递增式学习的方法,利用主动学习的策略对训练样本进行选择,逐步增大提交给学习器训练样本的规模,以提高学习器的识别精度.实验表明,采用主动学习策略的支持向量机算法是有效的,在实验中,中文机构名识别的正确率和召回率分别达到了81.7%和86.8%.  相似文献   

6.
对中文地名识别进行了研究,提出了一种结合多知识的地名识别方法,该方法首先以条件随机场模型为框架,充分利用地名的外部特征和内部颗粒特征,将局部特征、复合特征以及专家知识相融合进行中文地名识别;在此结果上,利用构建的专家规则库对实验结果进行修正。实验结果表明,本文的方法是有效的,实验语料为1998年1月的《人民日报》,开放测试准确率、召回率、和F-值分别达到了93.64%、90.36%、92.03%。  相似文献   

7.
命名实体是存在于现实世界里的事物,它们与现实世界有着相互作用、相互影响的关系,因此命名实体在一些场景里是很重要的.文章从命名实体识别的定义着手,逐步阐述它从始初到如今的发展状况和识别方法及手段,分析命名实体识别的主要难点,最后通过命名实体识别的三个评价指标来判断实体的边界是否正确,以及实体的类型是否标注正确.  相似文献   

8.
嵌套命名实体含有丰富的实体和实体间语义关系,有助于提高信息抽取的效率。由于缺少统一的标准中文嵌套命名实体语料库,目前中文嵌套命名实体的研究工作难于比较。该文在已有命名实体语料的基础上采用半自动化方法构建了两个中文嵌套命名实体语料库。首先利用已有中文命名实体语料库中的标注信息自动地构造出尽可能多的嵌套命名实体,然后再进行手工调整以满足对中文嵌套实体的标注要求,从而构建高质量的中文嵌套命名实体识别语料库。语料内和跨语料嵌套实体识别的初步实验表明,中文嵌套命名实体识别仍是一个比较困难的问题,需要进一步研究。  相似文献   

9.
识别谓语动词是理解句子的关键。由于中文谓语动词结构复杂、使用灵活、形式多变,识别谓语动词在中文自然语言处理中是一项具有挑战的任务。本文从信息抽取角度,介绍了与中文谓语动词识别相关的概念,提出了一种针对中文谓语动词标注方法。在此基础上,研究了一种基于Attentional-BiLSTM-CRF神经网络的中文谓语动词识别方法。该方法通过双向递归神经网络获取句子内部的依赖关系,然后用注意力机制建模句子的焦点角色。最后通过条件随机场(Conditional random field, CRF)层返回一条最大化的标注路径。此外,为解决谓语动词输出唯一性的问题,提出了一种基于卷积神经网络的谓语动词唯一性识别模型。通过实验,该算法超出传统的序列标注模型CRF,在本文标注的中文谓语动词数据上到达76.75%的F值。  相似文献   

10.
中文组织机构名识别的精确率一直是影响自然语言处理的因素之一.根据中文组织机构名的特点,提出采用最大熵的识别方法.实验系统在较大规模的数据集上对比了不同特征选择方法对模型的影响,同时考查了词面、词性、语法等信息对模型的贡献.实验结果表明,不同的特征选择算法,开放测试的平均值只相差0.2~0.5个百分点.  相似文献   

11.
该文提出了一种在低资源条件下,只利用无标注文档资源进行电力领域命名实体识别的无监督方法。该方法收集电力领域相关语料,利用串频统计技术更新电力领域词典,同时根据结构化电力数据解析出实体词及其类型,并通过表示学习获得每种实体类型的代表词表示。同时利用BERT全词遮盖技术对文本中的词语进行预测,计算文本词语和实体类型代表词之间的语义相似度,进而完成命名实体识别及类型判断。实验表明,该方法对数据条件要求低,具有很强的实用性,且易于复用到其他领域。  相似文献   

12.
An Algorithm that Learns What's in a Name   总被引:8,自引:0,他引:8  
In this paper, we present IdentiFinderTM, a hidden Markov model that learns to recognize and classify names, dates, times, and numerical quantities. We have evaluated the model in English (based on data from the Sixth and Seventh Message Understanding Conferences [MUC-6, MUC-7] and broadcast news) and in Spanish (based on data distributed through the First Multilingual Entity Task [MET-1]), and on speech input (based on broadcast news). We report results here on standard materials only to quantify performance on data available to the community, namely, MUC-6 and MET-1. Results have been consistently better than reported by any other learning algorithm. IdentiFinder's performance is competitive with approaches based on handcrafted rules on mixed case text and superior on text where case information is not available. We also present a controlled experiment showing the effect of training set size on performance, demonstrating that as little as 100,000 words of training data is adequate to get performance around 90% on newswire. Although we present our understanding of why this algorithm performs so well on this class of problems, we believe that significant improvement in performance may still be possible.  相似文献   

13.
基于网页文本依存特征的人名消歧   总被引:1,自引:0,他引:1  
研究互联网中的人名消歧问题.抽取与网页文本中人名关键字实体相关的依存特征及命名实体等辅助特征,利用二层聚类算法,根据依存特征将可信度高的文档聚类,使用辅助特征将剩余文档加到现有聚类结果中,由此实现人名消歧.实验结果证明,该方法消歧效果优于其他人名消歧方法.  相似文献   

14.
基于查询扩展的人名消歧   总被引:1,自引:0,他引:1  
针对现有很多基于特征的人名消歧方法不适用于文档本身特征稀疏的问题,提出一种借助丰富的互联网资源,使用搜索引擎查询并扩展出更多与文档相关特征的方法。首先根据搜索引擎的特性构建了四类查询规则,然后通过这些查询规则进行搜索并返回前k个文档,最后对这些文档使用文档频率(DF)方法进行特征选择,并将选择的特征加入到原文档中。实验证明,该方法能显著提高人名消歧系统的性能,平均F值由76%增加到81%。  相似文献   

15.
现有Web服务存在着很多的仿冒、欺骗等安全威胁,而Web通信基本先通过DNS获取IP地址,因此对网络中DNS域名信息的分析有助于加强对可疑非法Web通信的监控。传统的域名分析技术只能进行简单的协议分析,而且耗费资源严重,不能实现安全控制。文中提出了一种针对可疑域名的监控技术,给出了设计方案和具体的编程实现方法,并搭建了校园网环境进行验证,表明该系统有很小的丢包率和及时的安全控制响应,能很好实现对网络域名信息的监控。  相似文献   

16.
命名实体识别(Named Entity Recognition,NER)作为自然语言处理领域经典的研究主题,是智能问答、知识图谱等任务的基础技术。领域命名实体识别(Domain Named Entity Recognition,DNER)是面向特定领域的NER方案。在深度学习技术的推动下,中文DNER取得了突破性进展。概括了中文DNER的研究框架,从领域数据源的确定、领域实体类型及规范制定、领域数据集的标注规范、中文DNER评估指标四个角度对国内外已有研究成果进行了综合评述;总结了目前常见的中文DNER的技术框架,介绍了基于词典和规则的模式匹配方法、统计机器学习方法、基于深度学习的方法、多方融合的深度学习方法,并重点分析了基于词向量表征和深度学习的中文DNER方法;讨论了中文DNER的典型应用场景,对未来发展方向进行了展望。  相似文献   

17.
域名的专有使用权就是域名持有人对域名进行技术意义上的使用的权利。域名使用有哪些方式以及使用中有哪些限制,直接影响到域名的使用收益。该文在分析域名使用的具体方式基础上讨论当前域名的使用现状及其限制的具体问题。  相似文献   

18.
CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个 聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类.由于是用"字"串匹配的方法从新华社的语料库中抽出所有含有该查询词的文档.所以对于这个...  相似文献   

19.
边界模板和局部统计相结合的中国人名识别   总被引:3,自引:1,他引:3  
本文提出了一种基于篇章信息的中国人名识别算法。我们从标注语料中提取人名左右边界词语及人名用字频度作为系统知识源。识别过程是:首先利用带有频度的边界模板识别出可能的人名,并把识别结果扩散到整篇文章以召回数据稀疏导致的遗漏人名。然后应用上下文局部统计量及几条启发式规则对识别结果进行边界校正。该算法具有线性时间复杂度,大规模开放测试(针对1354篇新闻报道约304万字,含人名3.7万个)的正确率为94.52%,召回率为98.97%,效果非常令人满意。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号