期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杜文倩李弼程王瑞《中文信息学报》1986,34(7):50-59

知识图谱在很多人工智能领域发挥着越来越重要的作用。知识图谱表示学习旨在将三元组中的实体和关系映射到低维稠密的向量空间。TransE、TransH和TransR等基于翻译操作的表示学习方法,只考虑了知识图谱的三元组信息孤立的学习表示,未能有效利用实体描述、实体类型等重要信息,从而不能很好地处理一对多、多对多等复杂关系。针对这些问题,该文提出了一种融合实体描述及类型的知识图谱表示学习方法。首先,利用Doc2Vec模型得到全部实体描述信息的嵌入;其次,对实体的层次类型信息进行表示,得到类型的映射矩阵,结合Trans模型的三元组嵌入,得到实体类型信息的表示;最后,对三元组嵌入、实体描述嵌入及实体类型嵌入进行连接操作,得到最终实体嵌入的表示,通过优化损失函数训练模型,在真实数据集上分别通过链接预测和三元组分类两个评测任务进行效果评估,实验结果表明新方法优于TransE、TransR、DKRL、SimplE等主流模型。相似文献

2.

基于卷积神经网络的知识图谱补全方法研究

王维美陈恒史一民李冠宇《计算机应用与软件》2021,38(4):250-255

知识图谱是事实三元组的集合,其表示形式为(头实体,关系,尾实体)。为了补全知识图谱中缺失的实体和关系,提出一种基于卷积神经网络的知识图谱补全方法。使用传统嵌入模型训练三元组,得到实体向量和关系向量;将三元组表示成3列矩阵,作为卷积神经网络的输入,卷积后得到三元组的特征表示图;连接所有特征图和权重向量进行点乘得到每个三元组的得分,得分越低证明三元组越正确。实验采用数据集WN18RR、FB15K-237、FB15K分别进行链接预测和三元组分类实验。实验结果表明,与其他方法相比,该方法在Mean Rank和Hit@10指标上都取得了更好的实验结果,证明其可以有效提高三元组预测精度。相似文献

3.

聚合邻域信息的联合知识表示模型

彭敏黄婷田纲张鼎罗娟银源《中文信息学报》2021,35(5):46-54

知识表示学习在关系抽取、自动问答等自然语言处理任务中获得了广泛关注,该技术旨在将知识库中的实体与关系表示为稠密低维实值向量。然而,已有的模型在建模知识库中的三元组时,或是忽略三元组的邻域信息,导致无法处理关联知识较少的罕见实体,或是在引入邻域信息时不能自适应地为每个实体抽取最相关的邻节点属性,导致引入了冗余信息。基于以上问题,该文在知识表示模型TransE的基础上提出了聚合邻域信息的联合知识表示模型TransE-NA(neighborhood aggregation on TransE)。该模型首先根据实体的稀疏度确定其邻节点数量,然后根据实体的邻边关系选取对应邻节点上最相关的属性作为实体的邻域信息。在链接预测和三元组分类任务上的实验结果表明,该文的模型效果超越了基线模型,验证了该模型能有效聚合邻域信息,缓解数据稀疏问题,改善知识表示性能。相似文献

4.

基于TransE的表示学习方法研究综述

张正航《计算机应用研究》2021,38(3):656-663

为了及时了解基于TransE的表示学习方法的最新研究进展,通过归纳与整理,将基于TransE的表示学习方法分为基于复杂关系、基于关系路径、基于图像信息以及基于其他方面的方法四种类型。对每一种方法的设计思路、优缺点等进行了详细的分析,同时对基于TransE的表示学习方法的公共数据集与评价指标进行了对比、总结,对各种基于TransE的表示学习算法在实验中的表现进行了对比分析。从研究结果来看,PaSKoGE、NTransGH、TCE、TransD方法在进行链接预测和三元组分类任务上表现效果最好,值得推广和进一步拓展,并可在其特定于路径的嵌入、两层神经网络、三元组上下文、动态构造映射矩阵上进一步完善。相似文献

5.

用于知识表示学习的对抗式负样本生成

张钊吉建民陈小平《计算机应用》2019,39(9):2489-2493

知识表示学习目的是将知识图谱中符号化表示的关系与实体嵌入到低维连续向量空间。知识表示模型在训练过程中需要大量负样本,但多数知识图谱只以三元组的形式存储正样本。传统知识表示学习方法中通常使用负采样方法,这种方法生成的负样本很容易被模型判别,随着训练的进行对性能提升的贡献也会越来越小。为了解决这个问题,提出了对抗式负样本生成器（ANG）模型。生成器采用编码-解码架构,编码器读入头或尾实体被替换的正样本作为上下文信息,然后解码器利用编码器提供的编码信息为三元组填充被替换的实体,从而构建负样本。训练过程采用已有的知识表示学习模型与生成器进行对抗训练以优化知识表示向量。在链接预测和三元组分类任务上评估了该方法,实验结果表明该方法对已有知识表示学习模型在FB15K237、WN18和WN18RR数据集上的链接预测平均排名与三元组分类准确度都有提升。相似文献

6.

融合实体描述信息和邻居节点特征的知识表示学习方法

焦守龙段友祥孙歧峰庄子浩孙琛皓《计算机应用》2022,42(4):1050-1056

知识图谱表示学习旨在将实体和关系映射到一个低维稠密的向量空间中。现有的大多数相关模型更注重于学习三元组的结构特征,忽略了三元组内的实体关系的语义信息特征和三元组外的实体描述信息特征,因此知识表达能力较差。针对以上问题,提出了一种融合多源信息的知识表示学习模型BAGAT。首先,结合知识图谱特征来构造三元组实体目标节点和邻居节点,并使用图注意力网络（GAT）聚合三元组结构的语义信息表示;然后,使用BERT词向量模型对实体描述信息进行嵌入表示;最后,将两种表示方法映射到同一个向量空间中进行联合知识表示学习。实验结果表明,BAGAT性能较其他模型有较大提升,在公共数据集FB15K-237链接预测任务的Hits@1与Hits@10指标上,与翻译模型TransE相比分别提升了25.9个百分点和22.0个百分点,与图神经网络模型KBGAT相比分别提升了1.8个百分点和3.5个百分点。可见,融合实体描述信息和三元组结构语义信息的多源信息表示方法可以获得更强的表示学习能力。相似文献

7.

四元数关系旋转的知识图谱补全模型

陈恒王维美李冠宇史一民《计算机科学》2021,48(5):225-231

知识图谱是真实世界三元组的结构化表示,通常三元组被表示成头实体、关系、尾实体的形式。针对知识图谱中广泛存在的数据稀疏问题,提出了一种将四元数作为关系旋转的知识图谱补全方法。文中使用极具表现力的超复数表示对实体和关系进行建模,以进行链接预测。这种超复数嵌入用于表示实体,关系则被建模为四元数空间中的旋转。具体来说,将每个关系定义为超复数空间中头实体到尾实体的旋转,用于推理和建模各种关系模式,包括对称/反对称、反转和组合。在公开的数据集WN18RR和FB15K-237上进行相关的链接预测实验,实验结果表明,在WN18RR数据集中,其平均倒数排名(Mean Reciprocal Rank,MRR)比RotatE的提高了4.6%,其Hit@10比RotatE的提高了1.7%;在FB15K-237数据集中,其平均倒数排名比RotatE的提高了5.6%,其Hit@3比RotatE的提高了1.4%。该实验证明,使用四元数作为关系旋转的知识图谱补全方法可以有效提高三元组预测精度。相似文献

8.

基于表示学习的开放域中文知识推理

姜天文秦兵刘挺《中文信息学报》2018,32(3):34-41

知识库通常以网络的形式被组织起来,网络中每个节点代表实体,而每条连边则代表实体间的关系。为了利用这种网状知识库中的知识,往往需要设计专门的、复杂度较高的图算法。然而这些算法并不能很好适用于知识推理,尤其是随着知识库的知识规模不断扩大,基于网状结构知识库的推理很难较好地满足实时计算的需求。该文使用基于TransE模型的知识表示学习进行知识推理,包括对实体关系三元组中关系指示词以及尾实体的推理,其中关系指示词推理的实验取得了较好的结果,且推理过程无需设计复杂的算法,仅涉及向量的简单运算。另外,该文对原始TransE模型的代价函数进行改进,以更好地适用于开放域中文知识库表示学习。相似文献

9.

融合实体类型信息的本体-实例联合学习方法

游乐圻裴忠民罗章凯《计算机工程》2022,48(7):82-88

对表示知识图谱的本体图和实例图进行联合学习能够提高嵌入学习效率,但不能区别表示实体在不同场景下的不同意义。在嵌入时考虑三元组中实体的关系类型特征,提出一种融合实体类型信息的本体-实例联合学习方法JOIE-TKRL-CT,达到在联合学习中表示多义实体、提高知识图谱嵌入学习效率的目的。在视图内部关系表示上,利用实体分层类型模型融入实体类型信息,在两个独立的嵌入空间中分别表征学习;在视图间关系表示上,将表征在两个独立空间的本体和实例通过非线性映射的方法跨视图链接。基于YAGO26K-906和DB111K-174数据集的实验结果表明,JOIE-TKRL-CT能够准确捕获知识图谱的实体类型信息,提高联合学习模型性能,与TransE、HolE、DisMult等基线模型相比,其在实例三元组补全和实体分类任务上均获得最优性能,具有较好的知识学习效果。相似文献

10.

球坐标建模语义分层的知识图谱补全方法

下载免费PDF全文

陈恒祁瑞华朱毅杨晨郭旭王维美《计算机工程与应用》2021,57(15):101-108

知识图谱是真实世界三元组的结构化表示。通常,三元组表示形式为（头实体,关系,尾实体）,这表示头实体和尾实体通过特定关系相互联系。针对知识图谱中广泛存在的数据稀疏问题,提出一种球坐标建模语义分层的知识图谱补全方法。使用球坐标系对实体和关系进行建模表示,以进行链接预测。具体来说,半径坐标旨在对不同层级的实体进行建模,半径较小的实体级别越高;角度坐标旨在区分相同层级的实体,即模长相等而角度不同的实体。该方法将实体映射到球坐标系中,可以有效建模知识图谱中普遍存在的语义分层现象。实验中,采用公开数据集WN18RR、FB15K-237与YAGO3-10进行相关的链接预测实验。实验结果表明,在WN18RR中,平均倒数排名（Mean Reciprocal Rank）比RotatE提高3.6%,Hit@10比RotatE提高1.9%;在FB15K-237中,平均倒数排名（Mean Reciprocal Rank）比ConvKB提高4.8%,Hit@10比ConvKB提高3.5%。实验证明球坐标建模语义分层的知识图谱补全方法可以有效提高三元组预测准确度。相似文献

11.

限定领域口语对话系统中超出领域话语的对话行为识别

黄沛杰王俊东柯子烜林丕源《中文信息学报》2016,30(6):182-189

由于领域外话语具有内容短小、表达多样性、开放性及口语化等特点,限定领域口语对话系统中超出领域话语的对话行为识别是一个挑战。该文提出了一种结合外部无标签微博数据的随机森林对话行为识别方法。该文采用的微博数据无需根据应用领域特点专门收集和挑选,又与口语对话同样具有口语化和表达多样性的特点,其训练得到的词向量在超出领域话语出现超出词汇表字词时提供了有效的相似性扩展度量。随机森林模型具有较好的泛化能力,适合训练数据有限的分类任务。中文特定领域的口语对话语料库测试表明,该文提出的超出领域话语的对话行为识别方法取得了优于最大熵、卷积神经网络等短文本分类研究进展中的方法的效果。相似文献

12.

基于DNN的汉语框架识别研究

赵红燕李茹张晟张力文《中文信息学报》2016,30(6):75-83

框架识别是语义角色标注的基本任务,它是根据目标词激起的语义场景,为其分配一个合适的语义框架。目前框架识别的研究主要是基于统计机器学习方法,把它看作多分类问题,框架识别的性能主要依赖于人工选择的特征。然而,人工选择特征的有效性和完备性无法保证。深度神经网络自动学习特征的能力,为我们提供了新思路。该文探索了利用深度神经网络自动学习目标词上下文特征,建立了一种新的通用的框架识别模型,在汉语框架网和《人民日报》2003年3月新闻语料上分别取得了79.64%和78.58%的准确率,实验证明该模型具有较好的泛化能力。相似文献

13.

限定领域口语对话系统中的商品属性抽取

叶大枢黄沛杰邓振鹏黄强《中文信息学报》2016,30(6):67-74

按功能或问题域划分,商品属性抽取(product feature mining)在限定领域的对话系统中属于口语语言理解(spoken language understanding, SLU)的范畴。商品属性抽取任务只关注自然文本中描述商品属性的特定部分,它是细粒度观点抽取(fine-grained opinion mining)的一个重要的子任务。现有的商品属性抽取技术主要建立在商品的评论语料上,该文以手机导购对话系统为背景,将商品属性抽取应用到整个对话过程中,增强对话系统应答的针对性。使用基于CBOW (continuous bag of words)语言模型的word2vector(W2V)对词汇的语义层面建模,提出一个针对口语对话的指数型变长静态窗口特征表达框架,捕捉不同距离词语组合的重要特征,使用卷积神经网络(convolutional neural network, CNN)结合词汇的语义和上下文层面对口语对话语料中的商品属性进行抽取。词嵌入模型给出了当前词和所给定的属性类别是否存在相关性的证据,而所提出的特征表达框架则是为了解决一词多义的问题。实验结果表明,该方法取得了优于研究进展中方法的商品属性识别效果。相似文献

14.

基于远监督的语义知识资源扩展研究

卢达威王星友袁毓林《中文信息学报》2016,30(6):147-155

语义知识资源蕴含了深刻的语言学理论,是语言学知识和语言工程的重要接口。该文以形容词句法语义词典为研究对象,探索对语义知识资源自动扩展的方法。该文的目标是利用大规模语料库,扩展原有词典的词表及其对应的句法格式。具体方法是根据词的句法格式将词典的词分类,将待扩展的新词通过分类器映射到原有词典的词中,以此把词典扩展问题转化为多类分类问题。依据的原理是词典词和待扩展新词在大规模语料中句法结构的相似性。该文通过远监督的方法构造训练数据,避免大量的人工标注。训练过程结合了浅层机器学习方法和深度神经网络,取得了有意义的成果。实验结果显示,深度神经网络能够习得句法结构信息,有效提升匹配的准确率。相似文献

15.

基于70年报刊语料的现代汉语历时稳态词抽取与考察

饶高琦李宇明《中文信息学报》2016,30(6):49-58

该文基于70年跨度的历时报刊语料库,使用九种统计方法计算了词语历年的使用情况,并通过对稳定性、覆盖度和时间区分性能的考察筛选获得了规模为3 013词的历时稳态词候选词集。该词集中动词与名词各占约三分之一(其余为形容词、副词与虚词),平均词长约1.7字,前密后疏地分布于历时语料库总频序表的前7 609位,覆盖了总语料的近九成。该部分词语中包含大量构造句子结构的核心词语。它们塑造了稳态词在词长和词类上的特性。稳态词的提取可以加深对语言生活底层与基础词汇的认识,对汉语教学、中文信息处理和语言规划都具有重要意义。相似文献

16.

基于框架语义的高考语文阅读理解答案句抽取

李国臣刘姝林杨陟卓李茹张虎钱揖丽《中文信息学报》2016,30(6):164-172

高考语文阅读理解问答相对普通阅读理解问答难度更大,问句抽象表述的理解需要更深层的语言分析技术,答案候选句抽取更注重与问句的关联分析,答案候选句排序更注重答案句之间的语义相关性。为此,该文提出借助框架语义匹配和框架语义关系抽取答案候选句,在排序时引入流形排序模型,通过答案句之间的框架语义相关度将排序分数进行传播,最终选取分数较高的Top-4作为答案句。在北京近12年高考语文阅读理解问答题上的准确率与召回率分别达到了53.65%与79.06%。相似文献