共查询到19条相似文献,搜索用时 78 毫秒
1.
评价对象抽取是情感分析的重要组成部分,针对在线商品中文评论非正规化、网络化的特点,本文提出一种基于句法分析和条件随机场的评价对象的抽取方法,通过实验分析不同模板与不同特征组合对评价对象提取的F值的影响.在系统实现上,主要利用哈工大语言技术平台(LTP)的开放接口和CRFs开源工具对评论数据集进行训练和测试.最终使两类数据集的评价对象抽取的F值达分别达到到82.98%和83.50%. 相似文献
2.
3.
本文使用条件随机场模型解决中文命名体识别问题,探讨了特征的选择对命名体识别的影响。实验证明,词的边界特征、构词特征(词的首字和尾子)、词性特征、词的上下文特征(尤其是前缀和后缀)对识别命名体具有非常大的帮助。 相似文献
4.
标点符号的边界识别是自然语言处理的重要研究内容,它是分词、语块识别等应用的基础。为了实现中文中用于表示并列成分分割的顿号的边界识别,采用了用于序列分割和标记的条件随机场(CRF)方法进行顿号边界识别。首先对顿号边界识别任务进行了两种类型的描述,然后对顿号语料的标注方法和过程以及特征选择进行了研究,通过采用语料推荐和十折交叉验证两种数据集分配方法分别进行了边界识别实验。实验结果表明,通过条件随机场方法结合选择的边界识别特征能够进行顿号边界识别,其顿号边界识别的F值在基准实验的基础上提高了10.57%,由顿号分隔的词语识别其F值可达85.24%。 相似文献
5.
6.
7.
胡秧 《计算机光盘软件与应用》2014,(16):115-117,119
专利信息是集技术、经济、法律信息于一体的重要情报分析数据来源,也是支持技术创新管理的重要决策依据。由于专利使用的术语比论文更为抽象,基于统计的信息标注效果并不理想。本文利用亚洲语言信息检索测评会议提供的英文专利文摘数据,采用条件随机场模型,有针对性地标注技术及其功效信息,为专利技术功效矩阵分析奠定了基础。 相似文献
8.
传统的事件因果关系抽取方法只能覆盖文本中的部分显式因果关系。针对这种不足,提出一种基于层叠条件随机场模型的事件因果关系抽取方法。该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。实验表明,本文方法不仅可以覆盖文本中的各类显式因果关系,并且均能取得较好的抽取效果,总体抽取效果的F1值达到85。3%。 相似文献
9.
张春元 《计算机技术与发展》2011,21(7)
条件随机场(CRFs)是一种十分优秀的统计学习模型,文中尝试将其引入到文本分类之中,提出了一种基于CRFs的文本分类模型.首先通过特征选择将待分类文档和文档类别分别表示成为CRFs的观察序列和状态序列,然后使用文本分类相关领域知识定义特征函数来提取序列之间的关联特征,再采用前向或后向算法评估出给定观察序列条件下各状态序列的概率,据此实现待分类文档的分类.分析表明,这种新模型语义清晰,计算直观,易于融合各种文本分类领域知识,分类效率较高. 相似文献
10.
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。 相似文献
11.
12.
针对信息抽取领域中存在的抽取结果难以满足需要的问题,给出基于条件随机域模型的方法,以解决组块标注和实体关系抽取问题。通过定义中文组块和实体关系的标注方式,选择比较通用的《人民日报》语料,训练出效率较高的二阶模板来抽取文本中的实体关系。实验结果表明,该方法可以获得更好的抽取效果。 相似文献
13.
14.
15.
传统时间短语识别方法存在中文文本时间短语边界定位不准确和长距离依赖的问题。为此,提出一种基于条件随机场(CRFs)的时间短语识别方法。采用基于机器学习的方法识别时间短语,分析中文文本中时间短语的词法、句法和上下文信息等语言学特征,将时间短语分为日期型和事件型2种类型,并半自动构建3个常用词表作为外部特征。在此基础上,引入能整合不同层面特征的CRFs方法,将识别问题转化为序列标注问题。实验结果表明,该方法在日期型时间短语和事件型时间短语识别上分别取得95.70%和85.75%的F1值,识别效果较好。 相似文献
16.
提出一种新的基于条件随机域和隐马尔可夫模型(HMM)的人类动作识别方法——HMCRF。目前已有的动作识别方法均使用隐马尔可夫模型及其变型,这些模型一个最突出的不足就是要求观察值相互独立。条件模型很容易表示上下文相关性,且可使用动态规划做到有效且精确的推论,它的参数可以通过凸函数优化训练得到。把条件图形模型应用于动作识别之上,并通过大量的实验表明,所提出的方法在识别正确率方面明显优于一般线性结构的CRF和HMM。 相似文献
17.
传统的分步骤事件抽取方法中,事件元素识别的结果无法指导事件类型识别,而事件类型识别的效果在很大程度上决定了事件抽取系统的整体性能。文中为解决事件类型识别对元素识别的后向依赖问题,将事件抽取看作序列标注,构建一个改进的条件随机域联合标注模型,将事件类型和事件元素在图模型中同时进行标注。同时,通过触发词嵌入试图解决事件抽取中的数据不平衡问题。ACE 2005中文语料上的实验表明,基于该模型的方法提高了事件类型识别的性能,最终F值达到63。53%。 相似文献
18.
19.
基于概率模型的Web信息抽取 总被引:1,自引:0,他引:1
针对Web网页的二维结构和内容的特点,提出一种树型结构分层条件随机场(TH-CRFs)来进行Web对象的抽取。首先,从网页结构和内容两个方面使用改进多特征向量空间模型来表示网页的特征;第二,引入布尔模型和多规则属性来更好地表示Web对象结构与语义的特征;第三,利用TH-CRFs来进行Web对象的信息提取,从而找出相关的招聘信息并优化模型训练的效率。通过实验并与现有的Web信息抽取模型对比,结果表明,基于TH-CRFs的Web信息抽取的准确率已有效改善,同时抽取的时间复杂度也得到降低。 相似文献