首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
夏圆  张征 《计算机系统应用》2017,26(11):254-259
评价对象抽取是情感分析的重要组成部分,针对在线商品中文评论非正规化、网络化的特点,本文提出一种基于句法分析和条件随机场的评价对象的抽取方法,通过实验分析不同模板与不同特征组合对评价对象提取的F值的影响.在系统实现上,主要利用哈工大语言技术平台(LTP)的开放接口和CRFs开源工具对评论数据集进行训练和测试.最终使两类数据集的评价对象抽取的F值达分别达到到82.98%和83.50%.  相似文献   

2.
针对隐条件随机场(HCRF)的实时性问题和隐动态条件随机场(LDCRF)行为转换时的标记偏差问题,提出了一种基于分层分数条件随机场(SFCRF)模型的行为识别算法。该算法改进了LDCRF,并提出分数标记的概念,将人体行为的完整性和有向性具体化。实验结果表明,该算法取得了比条件随机场(CRF)、HCRF和LDCRF更好的识别效果。  相似文献   

3.
王昌厚 《福建电脑》2012,28(2):89-89,93
本文使用条件随机场模型解决中文命名体识别问题,探讨了特征的选择对命名体识别的影响。实验证明,词的边界特征、构词特征(词的首字和尾子)、词性特征、词的上下文特征(尤其是前缀和后缀)对识别命名体具有非常大的帮助。  相似文献   

4.
莫怡文  姬东鸿  黄江平 《计算机应用》2015,35(10):2838-2842
标点符号的边界识别是自然语言处理的重要研究内容,它是分词、语块识别等应用的基础。为了实现中文中用于表示并列成分分割的顿号的边界识别,采用了用于序列分割和标记的条件随机场(CRF)方法进行顿号边界识别。首先对顿号边界识别任务进行了两种类型的描述,然后对顿号语料的标注方法和过程以及特征选择进行了研究,通过采用语料推荐和十折交叉验证两种数据集分配方法分别进行了边界识别实验。实验结果表明,通过条件随机场方法结合选择的边界识别特征能够进行顿号边界识别,其顿号边界识别的F值在基准实验的基础上提高了10.57%,由顿号分隔的词语识别其F值可达85.24%。  相似文献   

5.
为满足农业命名实体领域中多样而精确的需求,本文采用基于条件随机场的命名实体识别,将农业命名实体分为病虫害、作物、化肥及农药4种命名实体,并用自定义标注集对其进行标注,以ICTCLAS分词系统来对收集到的语料进行分词,通过添加多种不同的特征以提高识别率。最终训练得到的模型对各命名实体识别的准确率达到了93%以上,召回率达到了84%以上,证明对农业命名实体细致划分为多个实体是可行的。  相似文献   

6.
冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。针对传统的基于规则和机器学习的方法,只考虑名词短语前冠词选择的问题,该文将冠词看作一种标记,将该问题形式化地描述为一个序列标注任务,提出一种基于条件随机场的解决策略,选取特征时充分利用词、词性等多层次资源,并引入前后词的互信息。实验采用包含91 106个冠词的专利摘要做测试语料,F值达到80%。  相似文献   

7.
专利信息是集技术、经济、法律信息于一体的重要情报分析数据来源,也是支持技术创新管理的重要决策依据。由于专利使用的术语比论文更为抽象,基于统计的信息标注效果并不理想。本文利用亚洲语言信息检索测评会议提供的英文专利文摘数据,采用条件随机场模型,有针对性地标注技术及其功效信息,为专利技术功效矩阵分析奠定了基础。  相似文献   

8.
传统的事件因果关系抽取方法只能覆盖文本中的部分显式因果关系。针对这种不足,提出一种基于层叠条件随机场模型的事件因果关系抽取方法。该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。实验表明,本文方法不仅可以覆盖文本中的各类显式因果关系,并且均能取得较好的抽取效果,总体抽取效果的F1值达到85。3%。  相似文献   

9.
条件随机场(CRFs)是一种十分优秀的统计学习模型,文中尝试将其引入到文本分类之中,提出了一种基于CRFs的文本分类模型.首先通过特征选择将待分类文档和文档类别分别表示成为CRFs的观察序列和状态序列,然后使用文本分类相关领域知识定义特征函数来提取序列之间的关联特征,再采用前向或后向算法评估出给定观察序列条件下各状态序列的概率,据此实现待分类文档的分类.分析表明,这种新模型语义清晰,计算直观,易于融合各种文本分类领域知识,分类效率较高.  相似文献   

10.
基于多层条件随机场的中文命名实体识别   总被引:2,自引:0,他引:2       下载免费PDF全文
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。  相似文献   

11.
提出一种基于层次关联边条件随机场(HCC-CRFs)模型的Web对象抽取方法.将数据块检测和属性标注合并为标签分配问题,避免误差传播现象.通过在数据块之间增加条件依赖关系,使HCC-CRFs模型能充分利用Web页面的内容层次结构.实验结果表明,该方法具有较好的抽取效果.  相似文献   

12.
周晶 《计算机工程》2010,36(24):192-194
针对信息抽取领域中存在的抽取结果难以满足需要的问题,给出基于条件随机域模型的方法,以解决组块标注和实体关系抽取问题。通过定义中文组块和实体关系的标注方式,选择比较通用的《人民日报》语料,训练出效率较高的二阶模板来抽取文本中的实体关系。实验结果表明,该方法可以获得更好的抽取效果。  相似文献   

13.
条件随机域与上下文线索结合的生物实体识别   总被引:1,自引:0,他引:1       下载免费PDF全文
介绍一个用于在生物医学文献中识别基因、蛋白质等生物实体的识别方法。该方法基于条件随机域方法,选取适当特征进行实体识别,利用上下文线索进一步提高识别性能。实验结果表明上下文线索的引入使识别性能在条件随机域方法基础上提高了近3%,从而获得了较好的最终识别效果。  相似文献   

14.
针对线性条件随机场模型不能清楚表达语义角色内部结构关系的问题,提出一种基于树状条件随机场模型的语义角色标注方法。对句法依存树上的层次依赖关系和兄弟依赖关系进行标注,处理状态变量之间的长距离依赖,利用CRFs模型能添加任意特征的优点,在系统中添加新的组合特征和介词短语角色。在CoNNL 2008 Shared Task语料库上进行实验,结果证明该方法能有效提高系统的准确率和召回率。  相似文献   

15.
传统时间短语识别方法存在中文文本时间短语边界定位不准确和长距离依赖的问题。为此,提出一种基于条件随机场(CRFs)的时间短语识别方法。采用基于机器学习的方法识别时间短语,分析中文文本中时间短语的词法、句法和上下文信息等语言学特征,将时间短语分为日期型和事件型2种类型,并半自动构建3个常用词表作为外部特征。在此基础上,引入能整合不同层面特征的CRFs方法,将识别问题转化为序列标注问题。实验结果表明,该方法在日期型时间短语和事件型时间短语识别上分别取得95.70%和85.75%的F1值,识别效果较好。  相似文献   

16.
提出一种新的基于条件随机域和隐马尔可夫模型(HMM)的人类动作识别方法——HMCRF。目前已有的动作识别方法均使用隐马尔可夫模型及其变型,这些模型一个最突出的不足就是要求观察值相互独立。条件模型很容易表示上下文相关性,且可使用动态规划做到有效且精确的推论,它的参数可以通过凸函数优化训练得到。把条件图形模型应用于动作识别之上,并通过大量的实验表明,所提出的方法在识别正确率方面明显优于一般线性结构的CRF和HMM。  相似文献   

17.
传统的分步骤事件抽取方法中,事件元素识别的结果无法指导事件类型识别,而事件类型识别的效果在很大程度上决定了事件抽取系统的整体性能。文中为解决事件类型识别对元素识别的后向依赖问题,将事件抽取看作序列标注,构建一个改进的条件随机域联合标注模型,将事件类型和事件元素在图模型中同时进行标注。同时,通过触发词嵌入试图解决事件抽取中的数据不平衡问题。ACE 2005中文语料上的实验表明,基于该模型的方法提高了事件类型识别的性能,最终F值达到63。53%。  相似文献   

18.
基于条件随机域的生物命名实体识别   总被引:1,自引:1,他引:0       下载免费PDF全文
提出一种基于条件随机域模型的生物命名实体识别方法,结合单词构词特性以及距离依赖特性,在JNLPBA的GENIAV3.02数据上进行实验,测试结果表明,引入距离依赖后,系统的识别性能比只利用单特性的条件随机域方法提高2.54%,可获得较好的识别效果,提高了系统的识别效率。  相似文献   

19.
基于概率模型的Web信息抽取   总被引:1,自引:0,他引:1  
针对Web网页的二维结构和内容的特点,提出一种树型结构分层条件随机场(TH-CRFs)来进行Web对象的抽取。首先,从网页结构和内容两个方面使用改进多特征向量空间模型来表示网页的特征;第二,引入布尔模型和多规则属性来更好地表示Web对象结构与语义的特征;第三,利用TH-CRFs来进行Web对象的信息提取,从而找出相关的招聘信息并优化模型训练的效率。通过实验并与现有的Web信息抽取模型对比,结果表明,基于TH-CRFs的Web信息抽取的准确率已有效改善,同时抽取的时间复杂度也得到降低。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号