首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 265 毫秒
1.
量词在知识图中的分类与表示   总被引:3,自引:0,他引:3  
在当今知识表示领域中,知识图作为自然语言理解的语义模型有其独到之处,而在自然语言处理中普遍认为词是最基本的单位,本文从语义学和自然语言处理的角度(主要是从知识图的角度,)在对介词的逻辑词的研究之后,按照量词图的结构,对汉语中的量词进行了分类,并且按照知识量词构造,给一词图。  相似文献   

2.
自然语言处理中逻辑词的知识图分析   总被引:1,自引:1,他引:0  
知识图是一种新的知识表示方法。本文从本体论的角度出发,将知识图的本体论分别与Aristotle、Kant和Peirce的三种知识表示的本体论进行了比较,表明知识图方法的有效性以及本原性,说明知识图是一种更为一般的知识表示方法。从知识图本体论的观点,研究了各类逻辑词的知识图表示。本文结合汉语的特点,从结构的角度,研究并揭示了逻辑词的共性和规律性。进一步阐明知识图“结构就是含义”的思想。逻辑词的知识图分析将为自然语言分析中词典的建立奠定基础。  相似文献   

3.
汉语未登录词的知识表示与预测,包括词性、构词结构、词义等项目,是计算语言学领域中的基础性问题。该文依据“平行周遍”原则,从现有的语义构词知识中提取“平行条件”,将未登录词潜在的构词因素与这些“平行条件”进行适应性匹配,从而对其知识表示进行相对完整的预测。该方法将新的语言学理论与未登录词的理解应用问题结合,取得了显著的效果,其解释能力、便捷性和精细程度优于此前方法。这些研究,除了在自然语言处理领域有实用价值,也有望推动词典编撰、语言研究与教学等人文领域的进展。  相似文献   

4.
文本蕴含技术在自然语言处理中得到了广泛应用,但存在词对推理能力差的问题(例如,句对中出现反义词对无法判断反义关系等)。重点研究了词对知识向量的获取问题,包括融合多特征及有监督的词对关系向量获取、采用TransR的词对关系表示获取、反义词向量表示获取等三种方法,并将知识向量引入到文本蕴含识别模型中的词对齐和注意力机制部分。有关实验表明,上述方法相比经典模型有了较大的提升。  相似文献   

5.
知识表示是自然语言理解的重要基础。知识表示不统一、语义信息无法系统化利用是目前存在的亟待解决的问题。要解决这个问题,就要解决语义知识表示的问题。该文基于概念层次网络,描述了词语、句子和篇章层面的语义知识表示方法。基于文中描述的词汇层面的表示方法,构建了一个多语言本体知识库。该知识库的知识表示方法不仅可以为知识表示理论研究提供基础,还可以为自然语言处理相关领域的应用提供资源支持。  相似文献   

6.
基于知识图的汉语词语间语义相似度计算   总被引:2,自引:0,他引:2  
语义相似是词语间的基本关系之一,汉语词语间语义相似的研究对于许多自然语言处理的应用具有重要的指导意义。提出了一种基于知识图的词语间语义相似度计算的方法,把知识图这种属于语义网络范畴的知识表示方法应用于汉语信息处理中。实验结果表明该方法对词语间语义相似度计算是有效的。  相似文献   

7.
词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习扩展等方式在中文语料中嵌入泰语的互译词、同类词、上义词等,学习出泰语词在汉泰跨语言环境下的分布。实验基于学习到的跨语言词汇分布表示应用于双语文本相似度计算和汉泰混合语料集文本分类,均取得较好效果。  相似文献   

8.
隐喻识别是自然语言处理中语义理解的重要任务之一,目标为识别某一概念在使用时是否借用了其他概念的属性和特点.由于单纯的神经网络方法受到数据集规模和标注稀疏性问题的制约,近年来,隐喻识别研究者开始探索如何利用其他任务中的知识和粗粒度句法知识结合神经网络模型,获得更有效的特征向量进行文本序列编码和建模.然而,现有方法忽略了词义项知识和细粒度句法知识,造成了外部知识利用率低的问题,难以建模复杂语境.针对上述问题,提出一种基于知识增强的图编码方法(knowledge-enhanced graph encoding method,KEG)来进行文本中的隐喻识别.该方法分为3个部分:在文本编码层,利用词义项知识训练语义向量,与预训练模型产生的上下文向量结合,增强语义表示;在图网络层,利用细粒度句法知识构建信息图,进而计算细粒度上下文,结合图循环神经网络进行迭代式状态传递,获得表示词的节点向量和表示句子的全局向量,实现对复杂语境的高效建模;在解码层,按照序列标注架构,采用条件随机场对序列标签进行解码.实验结果表明,该方法的性能在4个国际公开数据集上均获得有效提升.  相似文献   

9.
在自然语言处理的基础上,将中医领域本体与图的基本性质相结合,提出了构造中医诊疗知识语义网络算法。给出了图的基本性质、语义网络的图定义,并为知识的网络表示建立了相应的数据结构。将算法用于中医领域语义网络和语义场构建。试验结果表明,该算法具有较好的实用性。提出的基于图的语义网络构造算法,对于文本挖掘、知识获取技术研究有重要意义,也是中医专家知识获取的有效方法。  相似文献   

10.
词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理藏文具有重要意义。该文提出了一种构件、字和词多基元联合训练的藏文词向量表示方法,设计了多基元联合训练藏文词向量的模型TCCWE,并采用内部评测中的词相似度/相关性评价方式验证了其有效性。实验表明,该文提出的藏文词向量表示方法有效,其性能在TWordSim215上提高了3.35%,在TWordRel215上提高了4.36%。  相似文献   

11.
在文本分类研究中,向量空间模型具有表示形式简单的特点,但只能表示特征词的词频信息而忽视了特征词间的结构信息和语义语序信息,所以可能导致不同文档被表示为相同向量。针对这种问题,本文采用图结构模型表示文本,把文本表示成一个有向图(简称文本图),可有效解决结构化信息缺失的问题。本文将图核技术应用于文本分类,提出适用于文本图之间的相似度计算的图核算法--间隔通路核,然后利用支持向量机对文本进行分类。在文本集上的实验结果表明:与向量空间模型相比,间隔通路核相比于其他核函数的分类准确率更高,所以间隔通路核是一种很好的图结构相似性计算算法,能广泛应用于文本分类中。  相似文献   

12.
刘晓亮 《计算机应用》2012,32(11):3026-3029
针对互联网论坛话题追踪,提出一种基于维基百科知识的军事话题追踪方法。该方法首先以基于维基百科的词语语义相关度与共现统计方式,同时结合军事主题与帖子的结构特征建立文本图中节点间的关系边及其权重;接着以改进的基于图的链接挖掘方法选取帖子关键词;最后通过计算话题与文本关键词列表间的语义相关度实现话题追踪。实验表明,该方法无需大规模样本训练与语义知识的手工构建,能够有效解决语义稀疏对追踪所带来的负面影响,较好地追踪到军事话题帖。  相似文献   

13.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。  相似文献   

14.
Large vocabulary continuous speech recognition can benefit from an efficient data structure for representing a large number of acoustic hypotheses compactly. Word graphs or lattices have been chosen as such an efficient interface between acoustic recognition engines and subsequent language processing modules. This paper first investigates the effect of pruning during acoustic decoding on the quality of word lattices and shows that by combining different pruning options (at the model level and word level), we can obtain word lattices with comparable accuracy to the original lattices and a manageable size. In order to use the word lattices as the input for a post-processing language module, they should preserve the target hypotheses and their scores while being as small as possible. In this paper, we introduce a word graph compression algorithm that significantly reduces the number of words in the graphical representation without eliminating utterance hypotheses or distorting their acoustic scores. We compare this word graph compression algorithm with several other lattice size-reducing approaches and demonstrate the relative strength of the new word graph compression algorithm for decreasing the number of words in the representation. Experiments are conducted across corpora and vocabulary sizes to determine the consistency of the pruning and compression results.  相似文献   

15.
Logic can be used to precisely express human thoughts and inferences. In this paper, an approach using first-order logic for knowledge representation of software component interconnection information to facilitate the validity and integrity checking of the interconnection among software components during software development or modification is presented. Directed graphs are first used to model the structure and behavior of a large-scale software system, and a first-order theory of directed graphs (the DG theory) is established. The interconnection behavior among software components in a large-scale software system is a directed graph which is called software component interconnection graph (CIG). The behavior of the CIG is interpreted using the DG theory and translated into logic representation. The translated logic representation is a set of logic clauses and can be considered as a set of axioms. Automated reasoning techniques based on these axioms can be used to perform the validity and integrity checking of software properties in the software development or maintenance phase.  相似文献   

16.
Episturmian sequences are a natural extension of Sturmian sequences to the case of finite alphabets of arbitrary cardinality. In this paper, we are interested in central episturmian words, or simply, epicentral words, i.e., the palindromic prefixes of standard episturmian sequences. An epicentral word admits a variety of faithful representations including as a directive word, as a certain type of period vector, as a Parikh vector, as a certain type of Fine and Wilf extremal word, as a suitable modular matrix, and as a labeled graph. Various interconnections between the different representations of an epicentral word are analyzed. In particular, we investigate the structure of the graphs of epicentral words proving some curious and surprising properties.  相似文献   

17.
刘啸  杨敏 《集成技术》2022,11(2):67-78
近年来,基于深度学习的机器阅读理解模型研究取得显著进展,但这些模型在全局语义关系构建以及较长距离推理上仍有显著缺陷,在对段落文本进行推理时,大多只把文本信息看作词的序列,而没有探索词与词之间丰富的语义关系.为了解决上述问题,该文提出一种新的基于动态图神经网络的会话式机器阅读理解模型.首先,提取文本中的实体,使用句法结构...  相似文献   

18.
针对文本分类任务中标注数量少的问题,提出了一种基于词共现与图卷积相结合的半监督文本分类方法。模型使用词共现方法统计语料库中单词的词共现信息,过滤词共现信息建立一个包含单词节点和文档节点的大型图结构的文本图,将文本图中邻接矩阵和关于节点的特征矩阵输入到结合注意力机制的图卷积神经网络中实现了对文本的分类。实验结果表明,与目前多种文本分类算法相比,该方法在经典数据集20NG、Ohsumed和MR上均取得了更好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号