首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于多层条件随机场的中文命名实体识别   总被引:2,自引:0,他引:2       下载免费PDF全文
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。  相似文献   

2.
为满足农业命名实体领域中多样而精确的需求,本文采用基于条件随机场的命名实体识别,将农业命名实体分为病虫害、作物、化肥及农药4种命名实体,并用自定义标注集对其进行标注,以ICTCLAS分词系统来对收集到的语料进行分词,通过添加多种不同的特征以提高识别率。最终训练得到的模型对各命名实体识别的准确率达到了93%以上,召回率达到了84%以上,证明对农业命名实体细致划分为多个实体是可行的。  相似文献   

3.
英文产品命名实体识别目前国内外研究得较少,本文针对TREC 2009英文产品命名实体(EPNE)识别的任务,首次提出了一种基于条件随机场模型(CRF)的英文产品命名实体识别方法。在条件随机场中,该方法以词作为切分粒度,充分利用上下文和英文产品名特有的指示信息作为分类特征,结合手工构建的品牌词表进行建模。实验表明,该方法获得了较好的结果,英文产品实体识别准确率达到93.6%,召回率达到92.4%。  相似文献   

4.
5.
中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工标注的413份病历数据(以中文字为特征)与4类特征模版,将条件随机场(CRF)、隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)用于中医病历命名实体抽取的实验,并进行比较分析。结果表明,结合合适的特征模版,CRF命名实体抽取方法取得了较好的性能,F1值的症状达到0.80,疾病名称达到0.74,诱因0.74。与HMM和MEMM相比,CRF有最高的准确率和召回率,是一种较为适用的中医临床病历命名实体抽取方法。  相似文献   

6.
基于层叠条件随机场的旅游领域命名实体识别   总被引:3,自引:0,他引:3  
针对旅游领域,提出了一种基于层叠条件随机场模型的旅游领域命名实体识别方法。该方法在低层条件随机场中以字为切分粒度,结合旅游景点常用字表、景点常用后缀表、地名常用字表等特征词典,实现简单旅游命名实体的识别;其识别结果传递到高层模型,以词为切分粒度,结合复杂特征,实现嵌套景点、特产风味、地点的识别。最后进行了两组相关实验,结果表明,在开放测试中,层叠条件随机场模型相比于单层模型,F值提高了8个百分点;相比于HMM模型,正确率提高了8个百分点,召回率提高了22个百分点,F值提高了15个百分点。  相似文献   

7.
王昌厚 《福建电脑》2012,28(2):89-89,93
本文使用条件随机场模型解决中文命名体识别问题,探讨了特征的选择对命名体识别的影响。实验证明,词的边界特征、构词特征(词的首字和尾子)、词性特征、词的上下文特征(尤其是前缀和后缀)对识别命名体具有非常大的帮助。  相似文献   

8.
生物医学命名实体识别是从生物医学文献中获取关键知识的基础与关键任务.文中提出基于深层条件随机场的生物医学命名实体识别方法,构建多层结构的深层条件随机场模型,在不同层次的特征上结合增量式学习策略,选择最优特征集.最后通过基于〈全名,缩写〉对和基于领域信息的错误纠正算法,进一步修正识别结果.在生物医学命名实体评测语料JNLPBA上的实验验证文中方法的有效性.  相似文献   

9.
黄定琦  史晟辉 《计算机应用研究》2020,37(6):1724-1728,1754
汉语语言在书面表达时不具有天然分词的特性,词汇与词汇之间没有分词标记,因此在汉语文本的识别中需结合其行文的习惯及规则,即所谓的词汇特征。已有研究通常在实验中显式地标注词汇特征来提高识别效果,增加了人工处理流程,极大地加重了算法移植的工作量。研究并归纳了常用汉语语言的词汇特征,并利用条件随机场(conditional random fields,CRF)的特征提取能力,自行实现了复杂特征函数,在语料只具有简单标注的前提下,隐式地提取词汇特征,提高了识别效果。实验证明,在汉语分词中应用复杂词汇特征能有效提高识别性能,提供了在应用中提高识别算法可移植性的新思路。  相似文献   

10.
11.
线性链条件随机场模型难以处理Web对象与各个标注属性之间的特征关系,为解决此问题,提出一种增强约束条件随机场模型。通过将约束条件引入推理过程,改进线性链条件随机场模型的Viterbi算法;运用最大间隔理论的思想训练条件随机场模型,提高模型标注的正确率;将该模型与条件随机场模型及层次条件随机场模型进行对比。实验结果表明该模型能在提高标注正确率的基础上有效地解决Web对象信息抽取问题。  相似文献   

12.
提出一种基于条件随机场模型的场景描述方法,条件随机场模型直接对描述目标的后验概率建模,不但能融合多类特征,还具有联系上下文信息的能力,这使得CRF模型在场景描述中能获得更准确的描述结果.将图像分成m×n大小的矩形块,通过多类特征提取,分别提取图像中每一矩形块的颜色特征、纹理特征、位置特征,通过K-means算法对特征进行聚类,并按照矩形块的位置组成特征向量,用CRF模型对特征向量建模,通过训练获取模型的参数估计,最终利用MPM算法进行模型推断,获取场景描述.实验结果表明本文方法能较准确地进行场景描述.  相似文献   

13.
Conditional random fields (CRFs) are used as a framework to solve Chinese pinyin-to-character (PTC) conversion problem. The conversion can be regarded as labeling a sequence of pinyin with a sequence of Chinese characters. Unlike common sequence labeling problems, PTC holds an extremely large labeling set of all Chinese characters (more than 6,700 for Simplified Chinese), which would result in huge number of features as well as tremendous computation cost. To overcome this, homophone knowledge is included as labeling constraints in CRFs. Experiments show that state-of-the-art conversion accuracy of 88.54% (without tone) is achieved.  相似文献   

14.
中文分词是一个困难的、重要的被广泛研究的序列数据建模问题.以往应用条件随机场进行汉语分词时,将分词转化为对汉字的标注,造成了大量的冗余的候选切分,以至于在分词过程中大大降低了分词的速度.提出了使用词图作为基础的标记序列来完成汉语的词法分析,这样充分利用了现有的词典资源,在属性框架的选择时也可以方便地融合语言知识,并且长度歧视及状态歧视方面的影响也被减到最小.提出了应用条件随机场来构建统一的汉语词法分析.  相似文献   

15.
使用一种新的概率图模型——条件随机场对蛋白质二级结构进行预测,并给出了模型的构建、训练以及解码的算法。应用这一模型对一个典型的蛋白质数据集CB513的二级结构进行了预测,并将预测结果与其他方法进行比较,预测准确度有明显的提高。  相似文献   

16.
17.
通过对商品评论进行基于方面的情感分析,可以得到某件商品各个方面的优劣情况。本文提出利用三层CRFs模型进行情感极性分类及强度分析。在CRFs模型中,融合了词、词性、语气词、程度词、方面和评价词的共现等特征。在情感句识别、情感极性分类和情感强度分析上得到的F1值分别为86.3%、77.2%、70.7%,证明了:(1)分层CRFs模型在各个层次的任务中都能取得较好的结果;(2) 语气词、程度词、方面和评价词的共现特征在情感分类时是的有效性。  相似文献   

18.
针对电子病历结构化中命名实体识别困难的问题,提出了一种基于CRF与规则相结合的医学病历实体识别算法.该算法采用CRF进行病历实体的初始识别,然后基于规则进行病历实体识别结果优化,其中规则包括基于决策树生成的规则和临床知识规则.实验证明,该算法对病历实体进行识别时准确率及召回率分别最高达到91.03%和87.26%,满足临床中系统应用需求,同时实验表明该算法具有很好的鲁棒性和稳定性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号