首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
一种建立中文概念分类关系的新算法   总被引:7,自引:0,他引:7  
该文总结了本体概念之间的分类关系研究现状,提出了一个通用且独立于领域的自底向上建立中文概念之间的分类关系的分级模型和算法,算法充分考虑了中文自身的特点,通过生成领域词汇的语义森林并利用现有的语义词典或机读词典进行语义森林的整合。通过实验得到了比较完整的概念间的分类关系,由此证明算法是可行的和有效的。  相似文献   

2.
本文考察了汉语名词隐喻的相似性特点,尝试利用隐喻相似度推理、词典信息等多种方法实现n+n隐喻表达的发现和提取。隐喻相似度推理,首先运用人机互助方法对中文概念词典(CCD)进行合理剪裁,建立了一个词语对应一个语义类的词典格式,为后续的推理实验提供了保证。同时也验证了名词隐喻知识库的有效性。实验证明,最大熵方法、隐喻相似度、词典知识等多种方法大大提高了识别效果。  相似文献   

3.
目前针对国内在中文环境下本体学习的研究才刚刚起步的现状,对本体学习和HowNet进行了简单介绍,提出了基于HowNet的中文本体学习的主要思路.当前,本体学习的研究重点在于概念及概念间关系抽取.采用文本语料作为输入,首先对文本进行预处理,然后基于HowNet生成了一个领域语义词典,在本体学习中加入领域核心概念本体,在概念关系抽取阶段,采用基于HowNet的语义相似度计算方法.实验证明,提出的本体学习方法能够有效改进概念和概念间关系抽取的准确度.  相似文献   

4.
自然语言语义分析是自然语言处理技术走向深层应用的瓶颈。当前在概念、关系层次上的语义分析方法主要有两种:基于统计的特征向量抽取方法和基于语义词典(WordNet、HowNet等)的语义相似度计算方法。对于具体应用这两种方法都具有较大不足,前者由于统计模型的关系只适用于段落、篇章或多文档等粗粒度的语义分析,而不适合在句子词汇一级的应用;后者能方便处理实体概念之间的各种关系,但是如果想正确处理真实文本中的复杂修饰关系如概念与事件、概念与概念修饰、事件与事件修饰等关系,还需对语义词典和计算方法做进一步的扩展。提出了按照真实文本语句中词语之间修饰关系建立知识库,并设计了根据该知识库中已有修饰关系计算未知关系的算法;提出了可以依照修饰关系建立自然语言构句法的思路并给出了相关算法;最后给出了在语义分析系统上的实验,结果证明该方法是有效的。  相似文献   

5.
中文词语语义相似度计算——基于《知网》2000   总被引:8,自引:2,他引:8  
李峰  李芳 《中文信息学报》2007,21(3):99-105
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点: 认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。  相似文献   

6.
抽象语义表示(Abstract Meaning Representation,AMR)是一种句子语义表示方法,能够将句子的语义表示为一个单根有向无环图.随着中文AMR语料库规模的扩大,解析系统的研究也相继展开,将句子自动解析为中文AMR.然而,现有的AMR解析评测方法并不能处理中文AMR的重要组成部分——概念对齐和关系...  相似文献   

7.
CCD语义知识库的构造研究   总被引:2,自引:0,他引:2  
CCD(the Chinese Concept Dictionary)是一个WordNet框架下的汉英双语语义知识库(the Chinese—English WordNet).在制定语义规范后,作者提出了构造CCD的演化模型(the model of evolution).新的构造模型强调双语语义知识库构造中的继承(inheritance)和转换(transformation)思想,希望从WordNet现有的英语单语语义信息出发,通过词典编纂者的联机翻译(online translations)和可视化操作(visualized operations).逐步实现由WordNet到CCD的计算性转换,自然地得到一个双语语义知识库,从而大幅度提高构造此类语义知识库的效率和质量.针对该构造模型,作者设计并实现了可视化的辅助词典构造软件VACOL.该软件在北大计算语言所CCD项目中得到大规模的应用,取得了很好的成果.  相似文献   

8.
抽象语义表示(abstract meaning representation, AMR)是一种领域无关的句子语义表示方法,它将一个句子的语义抽象为一个单根有向无环图,AMR解析旨在将句子解析为对应的AMR图。目前,中文AMR研究仍然处于起步阶段。该文结合中文AMR特性,采用基于转移神经网络的方法对中文AMR解析问题展开了试验性研究。首先,实现了一个基于转移解码方法的增量式中文AMR解析神经网络基线系统;然后,通过引入依存路径语义关系表示学习和上下文相关词语语义表示学习,丰富了特征的表示;最后,模型中应用序列化标注的模型实现AMR概念识别,优化了AMR概念识别效果。实验结果表明,该模型在中文AMR解析任务中达到了0.61的Smatch F1值,明显优于基线系统。  相似文献   

9.
在本文中,我们提出了利用面向对象的技术表示语义和常识的方法。将知网中的义原(即最小的语义单位)表示为类,同时将概念之间、属性之间的语义关系转换为类之间关系以及类的属性之间的关系;将知网概念词典中的概念表示为所在范畴属性类的予类,并将DEF项中其它义原设置为该类中的变量。通过这种转换.知网中的语义和常识就被表示为类和对象。在实践中表明该方法是实际可行的,更重要的是为我们今后进行从文本中提取知识的研究打下基础。  相似文献   

10.
名词短语一直是中外语言学领域的重要研究对象,近年来在自然语言处理领域也受到了研究者的持续关注。英文方面,已建立了一定规模的名词短语语义关系知识库。但迄今为止,尚未建立相应或更大规模的描述名词短语语义关系的中文资源。该文借鉴国内外诸多学者对名词短语语义分类的研究成果,对大规模真实语料中的基本复合名词短语实例进行试标注与分析,建立了中文基本复合名词短语语义关系体系及相应句法语义知识库,该库能够为中文基本复合名词短语句法语义的研究提供基础数据资源。目前该库共含有18 281条高频基本复合名词短语,每条短语均标注了语义关系、短语结构及是否指称实体等信息,每条短语包含的两个名词还分别标注了语义类信息。语义类信息基于北京大学《现代汉语语义词典》。基于该知识库,该文还做了基本复合名词短语句法语义的初步统计与分析。  相似文献   

11.
基于神经网络的文本蕴含识别模型通常仅从训练数据中学习推理知识,导致模型泛化能力较弱。提出一种融合外部语义知识的中文知识增强推理模型(CKEIM)。根据知网知识库的特点提取词级语义知识特征以构建注意力权重矩阵,同时从同义词词林知识库中选取词语相似度特征和上下位特征组成特征向量,并将注意力权重矩阵、特征向量与编码后的文本向量相结合融入神经网络的模型训练过程,实现中文文本蕴含的增强识别。实验结果表明,与增强序列推理模型相比,CKEIM在15%、50%和100%数据规模的CNLI训练集下识别准确率分别提升了3.7%、1.5%和0.9%,具有更好的中文文本蕴含识别性能和泛化能力。  相似文献   

12.
互联网是广告推广的重要媒介,但是低质、诈骗、违法等违规广告也大量充斥其中,严重污染网络空间,因此,实现恶意广告的有效甄别对构建安全清朗的网络环境意义重大。针对各类违法违规中文广告内容的识别需求,利用Bert(bidirectional encoder representation from transformers)和Word2vec分别提取文本字粒度和词粒度嵌入特征,使用CNN(convolutional neural networks)网络对Bert高层特征做深层抽取,同时将词粒度特征向量输入到双向LSTM(long short-term memory)网络提取全局语义,并采用Attention机制对语义特征强化,将强化特征和Bert字粒度特征进行融合,充分利用动态词向量和静态词向量的语义表征优势,提出一种基于强化语义的中文广告识别模型CARES(Chinese advertisement text recognition based on enhanced semantic)。在真实的社交聊天文本数据集上的实验表明,与使用卷积神经网络、循环神经网络等文本分类模型相比,CARES模型分类性能最优,能更加精确识别社交聊天文本中的广告内容,模型识别的正确率达到97.73%。  相似文献   

13.
中医知识获取是计算机自动实现知识管理、知识重组的前提。中医领域存在大量非结构化知识,难以被深入获取。该文提出一种基于领域本体的知识获取方法,对选取的单一医案中蕴含的知识进行形式化表示,构造中医领域的语义网络,对其进行定量分析,抽取中医领域的概念语义场。实验结果表明,该方法可在一定程度实现中医领域的知识获取。  相似文献   

14.
凌绍东  霍林  王超 《微机发展》2014,(2):194-197,201
自从Protege出现以来,它成为唯一一款支持中文本体构建的工具,而且能够进行可视化操作。目前在部分领域已经构建了中文本体,但是对所构建本体在语义网中的应用缺乏研究。因为本体的应用主要依赖于推理工具,而国内尚无一款专业的基于中文本体的推理机或者推理工具,这阻碍了基于中文本体信息检索的发展。针对中文本体的应用,深入研究了本体在信息检索领域应用的现有技术、方法、工具。文中通过使用Jena开发包对中文本体的应用进行实验,实验表明,利用现有的推理工具等可以实现中文本体在语义网中的应用。  相似文献   

15.
针对检索式匹配问答模型对中文语料适应性弱和句子语义信息被忽略的问题,提出一种基于卷积神经网络潜在语义模型(CLSM)的中文文本语义匹配模型。首先,在传统CLSM基础上进行改进,去掉单词和字母的N元模型层,以增强模型对中文语料的适应性;其次,采用注意力机制算法,针对输入的中文词向量信息建立实体关注层模型,以加强句中核心词的权重信息;最后,通过卷积神经网络(CNN)有效地捕获输入句子上下文结构方面信息,并通过池化层对获取的语义信息进行降维。基于医疗问答对数据集,将改进模型与传统语义模型、传统翻译模型、深度神经网络模型进行对比,实验结果显示所提模型在归一化折现累积增益(NDCG)方面有4~10个百分点的提升,优于对比模型。  相似文献   

16.
伪平行句对抽取是缓解汉-越低资源机器翻译中数据稀缺问题的关键任务,同时也是提升机器翻译性能的重要手段。传统的伪平行句对抽取方法都是基于语义相似性度量,但是传统基于深度学习框架的语义表征方法没有考虑不同词语语义表征的难易程度,因此导致句子语义信息不充分,提取到的句子质量不高,噪声比较大。针对此问题,该文提出了一个双向长短期记忆网络加语义自适应编码的语义表征网络框架,根据句子中单词表征难易的不确定性,引导模型使用更深层次的计算。具体思路为: 首先,对汉语和越南语句子进行编码,基于句子中单词语义表征的难易程度,自适应地进行表征,深度挖掘句子中不同单词的语义信息,实现对汉语和越南语句子的深度表征;然后,在解码端将深度表征的向量映射到统一的公共语义空间中,最大化表示句子之间的语义相似度,从而提取更高质量的汉-越伪平行句子。实验结果表明,相比于基线模型,该文提出的方法在F1得分上提升5.09%,同时将提取到的句子对用于训练机器翻译模型,实验结果表明翻译性能的显著提升。  相似文献   

17.
基于知识图的汉语词语间语义相似度计算   总被引:2,自引:0,他引:2  
语义相似是词语间的基本关系之一,汉语词语间语义相似的研究对于许多自然语言处理的应用具有重要的指导意义。提出了一种基于知识图的词语间语义相似度计算的方法,把知识图这种属于语义网络范畴的知识表示方法应用于汉语信息处理中。实验结果表明该方法对词语间语义相似度计算是有效的。  相似文献   

18.
耿新青  王正欧 《计算机工程》2006,32(20):22-24,4
提出了一种新的动态模糊自组织神经网络模型(DFKCN),并将其用于文本聚类中。将DFKCN模型应用到中文文本聚类中,该文的特征向量的表示采用隐含语义分析理论,以体现特征词的语义关系并实现特征词的降维。仿真表明本聚类法的精度高于TGSOM算法的精度,算法的执行效率高于TGSOM,取得了良好的效果。  相似文献   

19.
汉语框架语义角色识别是汉语框架语义分析的重要任务之一。该文基于汉语词语、词性等特征的分布式表示,使用一种多特征融合的神经网络结构来构建汉语框架语义角色识别模型。鉴于可用的训练语料规模有限,该文采用了Dropout正则化技术来改进神经网络的训练过程。实验结果表明,Dropout正则化的加入有效地缓解了模型的过拟合现象,使得模型的F值有了近7%的提高。该文进一步优化了学习率以及分布式表示的初始值,最终的汉语框架语义角色识别的F值达到70.54%,较原有的最优结果提升2%左右。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号