首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 132 毫秒
1.
随着信息化领域的范围不断扩大,许多特定领域的文本语料开始涌现。这些特定领域,如医疗、通信等,由于受到安全性和敏感性的影响,其数据规模通常较小,传统的词嵌入学习模型难以获得有效的结果。另一方面,直接应用现有的预训练语言模型时会出现较多未登录词,这些词汇无法表示成向量,从而影响下游任务的性能表现。许多学者开始研究如何利用细粒度语义信息来得到较高质量的未登录词向量表示。然而,当前的未登录词嵌入学习模型大多针对英文语料,对中文词的细粒度语义信息只能进行简单的拼接或映射,难以在中文未登录词嵌入学习任务中得到有效的向量表示。针对上述问题,首先通过中文构字规则,即中文词所包含的汉字、汉字所包含的部件和拼音等,构建细粒度的知识图谱,使其不仅能涵盖汉字和单词之间的关联关系,还能对拼音和汉字、组件和汉字等细粒度语义信息之间的多元且复杂的关联关系进行表征。然后,在知识图谱上运行图卷积算法,从而对中文词的细粒度语义信息之间以及它们与词语义之间更深层次的关系进行建模。此外,文中通过在子图结构上构建图读出来进一步挖掘细粒度语义信息与词语义信息之间的组成关系,据此提升模型在未登录词嵌入推断中的精准度。实验结果表明,...  相似文献   

2.
基于论坛语料识别中文未登录词的方法   总被引:2,自引:1,他引:1  
为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法.利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD(由Mutual Information函数和Duplicated Combination Frequency函数构造)对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到词库中.实验结果表明,该方法可以有效提高未登录词的识别效率.  相似文献   

3.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。  相似文献   

4.
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。  相似文献   

5.
基于BERT的心血管医疗指南实体关系抽取方法   总被引:1,自引:0,他引:1  
武小平  张强  赵芳  焦琳 《计算机应用》2021,41(1):145-149
实体关系抽取是医疗领域知识问答、知识图谱构建及信息抽取的重要基础环节之一。针对在心血管专病知识图谱构建的过程中尚无公开数据集可用的情况,收集了心血管疾病领域的医疗指南并进行相应的实体和关系类别的专业标注,构建了心血管专病知识图谱实体关系抽取的专业数据集。基于该数据集,首先提出双向变形编码器卷积神经网络(BERT-CNN)模型以实现中文语料中的关系抽取,然后根据中文语义中主要以词而不是字为基本单位的特性,提出了改进的基于全词掩模的双向变形编码器卷积神经网络(BERT(wwm)-CNN)模型用于提升在中文语料中关系抽取的性能。实验结果表明,改进的BERT(wwm)-CNN在所构建的关系抽取数据集上准确率达到0.85,召回率达到0.80,F1值达到0.83,优于对比的基于双向变形编码器长短期记忆网络(BERT-LSTM)模型和BERT-CNN模型,验证了改进网络模型的优势。  相似文献   

6.
为解决甲骨文信息处理研究中对专家的依赖性高而专家知识共享率却很低这一突出矛盾,提出构建知识图谱的方案,其核心问题是如何发现实体和实体间的关联关系。基于甲骨文的古籍特征,先通过知识图谱MKD的共词分析发现实体及其关系,再利用甲骨文本体和规则推理发现隐含的语义关系,最后将其与MKD共词关系进行融合。实验结果表明,该方法可以有效解决甲骨文知识图谱中实体关系发现问题。  相似文献   

7.
基于合一句法和实体语义树的中文语义关系抽取   总被引:1,自引:0,他引:1  
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。  相似文献   

8.
实体上下位关系是构建领域知识图谱不可或缺的一种重要的语义关系,传统抽取上下位关系的方法大多不考虑关系的组织。提出一种结合词向量和Bootstrapping的方法来实现领域实体上下位关系的获取与组织。首先,选取旅游领域的种子语料集;然后,采用基于词向量的相似度计算方法对种子集中包含的上下位关系模式进行聚类,筛选出置信度高的模式并对未标注语料进行上下位关系识别,得到候选关系实例,同时选择置信度高的关系实例加入到种子集中,进行下一轮的迭代,直到得到所有的关系实例;最后,根据领域实体上下位关系对的向量偏移并结合领域实体层级关系的特点,采用映射的学习方法进行领域实体层级关系组织。实验结果表明,与传统的方法相比,所提方法的F值提高了近10%。  相似文献   

9.
嵌套命名实体含有丰富的实体和实体间语义关系,有助于提高信息抽取的效率。由于缺少统一的标准中文嵌套命名实体语料库,目前中文嵌套命名实体的研究工作难于比较。该文在已有命名实体语料的基础上采用半自动化方法构建了两个中文嵌套命名实体语料库。首先利用已有中文命名实体语料库中的标注信息自动地构造出尽可能多的嵌套命名实体,然后再进行手工调整以满足对中文嵌套实体的标注要求,从而构建高质量的中文嵌套命名实体识别语料库。语料内和跨语料嵌套实体识别的初步实验表明,中文嵌套命名实体识别仍是一个比较困难的问题,需要进一步研究。  相似文献   

10.
科技成果数据呈现跨领域、跨学科特性,传统的信息查询检索技术已难以满足用户日益增长的智能化、精准化的科技成果信息获取需求。分析了知识图谱领域和信息检索领域的研究现状。采用网络爬虫从互联网中高效地爬取科技成果数据,利用实体识别和关系抽取技术识别和发现科技成果数据中的科技实体,构建科技成果知识图谱,并实现科技成果数据的结构化存储。基于ElasticSearch搜索引擎对科技实体构建高效索引,研究科技成果语义相似度计算方法,实现基于知识图谱的科技成果智能查询系统。实验结果验证了所构建的系统能够实现科技成果的高效查询以及相关主题内容的关联发现。  相似文献   

11.
在此前的汉语未登录词语义预测中,构词相关的知识一直被当做预测的手段,而没有被视为一种有价值的知识表示方式,该文在“语素概念”基础上,深入考察汉语的语义构词知识,给出未登录词的“多层面”的词义知识表示方案。针对该方案,该文采用贝叶斯网络方法,构建面向汉语未登录词的自动语义构词分析模型,该模型能有效预测未登录词的“多层面”的词义知识。这种词义知识表示简单、直观、易于拓展,实验表明对汉语未登录词的语义预测具有重要的价值,可以满足不同层次的应用需求。  相似文献   

12.
引入结构化知识的对话系统因为能够生成流畅度更高、多样性更丰富的对话回复而受到广泛关注, 但是以往的研究只注重于结构化知识中的实体, 却忽略了实体之间的关系以及知识的完整性. 本文提出了一种基于图卷积网络的知识感知对话生成模型(KCG). 该模型通过知识编码器分别捕获实体与关系的语义信息并利用图卷积网络增强实体表征; 再利用知识选择模块获得与对话上下文相关的实体与关系的知识选择概率分布; 最后将知识选择概率分布与词表概率分布融合, 解码器以此选择知识或词表字词. 本文在中文公开数据集DuConv上进行实验, 结果表明, KCG在自动评估指标上优于目前的基线模型, 能生成更加流畅并且内容更加丰富的回复.  相似文献   

13.
汉语词语间语义相似是词语间的基本关系之一,文章提出了一种基于知网和知识图的词语语义相似度计算的方法,通过改进传统的知识图表示方式,根据知网中概念项的抽取结果对词语的义项进行表示,用词图的相似度来表示相应词语的语义相似度。实验结果表明该算法对词语间语义相似度计算是有效的。  相似文献   

14.
古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,该研究基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注。现有的语料库包含3.87万条标注数据,规模超过117.6万字,丰富了古代汉语领域的语言资源。实验显示,基于该语料库和BERT语言模型,词义判别算法准确率达到80%左右。进一步地,该文以词义历时演变分析和义族归纳为案例,初步探索了语料库与词义消歧技术在语言本体研究和词典编撰等领域的应用。  相似文献   

15.
基于语义依存关系的汉语语料库的构建   总被引:4,自引:1,他引:4  
语料库是自然语言处理中用于知识获取的重要资源。本文以句子理解为出发点,讨论了在设计和建设一个基于语义依存关系的汉语大规模语料库过程中的几个基础问题,包括:标注体系的选择、标注关系集的确定,标注工具的设计,以及标注过程中的质量控制。该语料库设计规模100万词次,利用70个语义、句法依存关系,在已具有语义类标记的语料上进一步标注句子的语义结构。其突出特点在于将《知网》语义关系体系的研究成果和具体语言应用相结合,对实际语言环境中词与词之间的依存关系进行了有效的描述,它的建成将为句子理解或基于内容的信息检索等应用提供更强大的知识库支持。  相似文献   

16.
基于知识图的汉语词语间语义相似度计算   总被引:2,自引:0,他引:2  
语义相似是词语间的基本关系之一,汉语词语间语义相似的研究对于许多自然语言处理的应用具有重要的指导意义。提出了一种基于知识图的词语间语义相似度计算的方法,把知识图这种属于语义网络范畴的知识表示方法应用于汉语信息处理中。实验结果表明该方法对词语间语义相似度计算是有效的。  相似文献   

17.
词语的语义计算是自然语言处理领域的重要问题之一,目前的研究主要集中在词语语义的相似度计算方面,对词语语义的相关度计算方法研究不够.为此,本文提出了一种基于语义词典和语料库相结合的词语语义相关度计算模型.首先,以HowNet和大规模语料库为基础,制定了相关的语义关系提取规则,抽取了大量的语义依存关系;然后,以语义关系三元组为存储形式,构建了语义关系图;最后,采用图论的相关理论,对语义关系图中的语义关系进行处理,设计了一个基于语义关系图的词语语义相关度计算模型.实验结果表明,本文提出的模型在词语语义相关度计算方面具有较好的效果,在WordSimilarity-353数据集上的斯皮尔曼等级相关系数达到了0.5358,显著地提升了中文词语语义相关度的计算效果.  相似文献   

18.
针对检索式匹配问答模型对中文语料适应性弱和句子语义信息被忽略的问题,提出一种基于卷积神经网络潜在语义模型(CLSM)的中文文本语义匹配模型。首先,在传统CLSM基础上进行改进,去掉单词和字母的N元模型层,以增强模型对中文语料的适应性;其次,采用注意力机制算法,针对输入的中文词向量信息建立实体关注层模型,以加强句中核心词的权重信息;最后,通过卷积神经网络(CNN)有效地捕获输入句子上下文结构方面信息,并通过池化层对获取的语义信息进行降维。基于医疗问答对数据集,将改进模型与传统语义模型、传统翻译模型、深度神经网络模型进行对比,实验结果显示所提模型在归一化折现累积增益(NDCG)方面有4~10个百分点的提升,优于对比模型。  相似文献   

19.
实体链接技术是将文本中的实体指称项正确链接到知识库中实体对象的过程,对知识库扩容起着关键作用。针对传统的实体链接方法主要利用上下文相似度等表层特征,而且忽略共现实体间的语义相关性,提出一种融合多特征的集成实体链接方法。首先结合同义词表、同名词表产生候选实体集,然后从多角度抽取语义特征,并将语义特征融合到构建的实体相关图中,最后对候选实体排序,选取top1实体作为链接目标。在NLP&CC2013中文微博实体链接评测数据集上进行实验,获得90.97%的准确率,与NLP&CC2013中文微博实体链接评测的最优系统相比,本文系统具有一定的优势。  相似文献   

20.
针对现有图神经网络在捕获知识图谱信息并进一步用于推荐时,侧重于项目端建模所存在的问题,提出一种基于双端知识图的图注意推荐模型。该模型通过从用户端和项目端在知识图谱上挖掘相关属性来有效增强推荐。从用户端角度,通过知识图谱中实体之间的联系传播用户兴趣,沿着知识图谱中用户的历史点击项来扩展用户的潜在兴趣;从项目端角度,通过捕获知识图谱中的高阶结构和语义信息,对每个实体的邻居抽样作为接收场,通过图注意获得实体-实体交互信息,以此建模高阶邻域信息,最后使用交叉熵损失函数进行训练。结果表明,所提模型在关于电影、书籍和音乐推荐的三个数据集上,有效提高了推荐的准确性和可解释性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号