首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到13条相似文献,搜索用时 46 毫秒
1.
面向上下位关系预测的词嵌入投影模型   总被引:1,自引:0,他引:1  
  相似文献   

2.
互联网数据的爆炸式增长,使得研究热点更多转向Web内容结构化分析。如果将藏语知识以结构化形式表示,那么将会有利于藏语知识的结构化分析和深度挖掘。该文提出了一种优化词向量的GRU神经网络模型进行藏语实体关系抽取的方法。在模型的训练中,加入了优化的词向量,在传统的词向量模型中结合藏语音节向量、音节位置向量、词性向量等特征对词向量进一步优化,并且选取了藏语词汇特征和藏语句子特征。实验证明,通过使用改进词向量F1值达到了78.43%。  相似文献   

3.
情感评价词典在情感分析中具有非常重要的作用,在新词频发的网络环境中,识别新的情感评价词,完善现有的情感词典是非常有必要的。使用基于模式的Bootstrapping方法,在微博语料中抽取情感评价词。实验证明,在保持了较理想的精确率的情况下,上述方法抽取了数量可观的传统情感词典未收录的情感评价词。  相似文献   

4.
5.
现有领域本体概念上下位关系抽取方法受到手工标注和特定模式的限制。针对该问题,提出一种基于层叠条件随机场的领域本体概念上下位关系抽取方法。以自由文本为抽取对象,采用两层条件随机场算法,将训练数据处理成条件随机场能识别的线性结构。低层条件随机场模型考虑词之间的长距离依赖,对词进行建模,识别出领域概念并对概念进行顺序组合,结合模板定义特征得到概念对;高层模型对成对概念进行上下位语义标注,识别出领域本体概念之间的上下位关系。采用真实语料进行实验,结果表明,该方法具有较好的识别效果。  相似文献   

6.
分类体系主要由上下位关系组成,传统的基于模板的上下位关系抽取方法分为两类:第一类方法只使用高质量的模板导致低召回率;第二类方法使用所有可用的模板导致低精度。根据模板的质量将其分为更细粒度的强句法模板和弱句法模板。为了提高弱模板的精度,将弱模板和概念/实体结合构建语义模板。结合强句法模板和语义模板,提出一套新颖的框架从语料中抽取上下位关系,具有高精度和召回率的特点。在中英文语料上进行的实验,实验结果证明了框架的有效性。  相似文献   

7.
该文旨在探究深度学习中汉语字向量和词向量的有效结合方式。我们在以词作为基础语义单元和以字作为基础语义单元这两个方向进行探究,实验了字、词信息多种浅层结合方式和深层结合方式。为了验证该文提出的结合方式的有效性,我们改进了一种compare-aggregate模型,并在基于文档的问答系统上进行了实验。实验结果表明,有效的汉语字向量和词向量的结合方式超越了单独的字向量和词向量,提升了基于文档的问答系统的性能,使其结果与目前最好的结果可媲美。  相似文献   

8.
针对煤矿领域知识抽取中存在的术语嵌套、一词多义,抽取任务间存在误差传播等问题,提出了一种深层注意力模型框架。首先,使用标注策略联合学习两项知识抽取子任务,以解决误差传播的问题;其次,提出结合多种词向量信息的投影方法,以缓解煤矿领域术语抽取中的一词多义的问题;然后,设计深度特征提取网络,并提出深层注意力模型及两种模型增强方案来充分提取语义信息;最后,对模型的分类层进行研究,以在保证抽取效果的前提下最大限度地简化模型。实验结果表明,在煤矿领域语料上,相较于编码-解码结构的最好模型,所提模型的F1值有了1.5个百分点的提升,同时模型训练速度几乎提高至原来的3倍。该模型可有效地完成煤矿领域术语抽取以及术语关系抽取这两项知识抽取子任务。  相似文献   

9.
实体链接任务主要包括命名实体识别、查询扩展、候选实体选择、特征抽取和排序。本文针对查询词的扩展,提出了一种基于词向量的扩展方法。该方法利用连续词袋(Continuous bag-of-words,CBOW)模型训练语料中词语的词向量,然后将距离查询词近的词作为扩展词。词向量从语料中挖掘出词与词之间的语义相关性是对基于规则的查询扩展方法的补充,以此来召回候选实体。在特征抽取时,把文档之间的潜在狄利克雷分布(Latent Dirichlet allocation, LDA)的主题相似性作为特征之一。在计算文档相似性时,不再以高频词作为向量的维度,而是以基于词向量的相关词作为向量维度,由此得到文档的语义相似性特征 。最后利用基于单文档方法的排序学习模型把查询词链接到相应的候选实体。实验结果表明利用该方法能使F1值达到0.71,具有较好的效果。  相似文献   

10.
词向量能够以向量的形式表示词的意义,近来许多自然语言处理应用中已经融入词向量,将其作为额外特征或者直接输入以提升系统性能。然而,目前的词向量训练模型大多基于浅层的文本信息,没有充分挖掘深层的依存关系。词的词义体现在该词与其他词产生的关系中,而词语关系包含关联单位、关系类型和关系方向三个属性,因此,该文提出了一种新的基于神经网络的词向量训练模型,它具有三个顶层,分别对应关系的三个属性,更合理地利用词语关系对词向量进行训练,借助大规模未标记文本,利用依存关系和上下文关系来训练词向量。将训练得到的词向量在类比任务和蛋白质关系抽取任务上进行评价,以验证关系模型的有效性。实验表明,与skip-gram模型和CBOW模型相比,由关系模型训练得到的词向量能够更准确地表达词语的语义信息。  相似文献   

11.
安全生产事故的分析对应急管理能力提升具有重要意义.通过对安全生产案例的语义分析,利用Word2Vec词嵌入技术和聚类模型,选用CBOW+负采样技术实现词向量,并结合安全生产事故案例分类的数据特点,通过基于半监督学习的聚类模型算法,根据事故性质的认定特点,提出了一种优化初始聚类中心的算法,并利用K-means聚类算法实现安全事故文本案例的分类.实验表明该方法较好实现安全生产的事故案例分类,并对安全生产事故的多个维度分析具有很好借鉴意义.  相似文献   

12.
针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优.  相似文献   

13.
从文本信息中抽取关系三元组是构建知识图谱的关键任务,近年来受到工业界和学术界的广泛关注。针对旅游领域信息抽取过程中出现的实体嵌套和关系重叠问题,提出了一种基于双仿射注意力机制的实体关系联合抽取模型BAMRel,该模型通过共享编码层参数利用双仿射注意力机制在实体识别部分和关系抽取部分构建分类矩阵,并在关系抽取部分融合实体类型信息,提升关系抽取效果的同时增加了两个任务之间的交互。此外,通过远程监督和人工校验构建了旅游领域关系抽取数据集TFRED,BAMRel模型在此数据集上F1值达到了91.8%,有效地解决了实体嵌套和关系重叠问题。为了验证模型的鲁棒性,在百度DuIE数据集上与主流联合抽取模型进行了对比实验,BAMRel模型取得了最高的F1值80.2%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号