首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
根据数学领域自然语言理解的特点,结合集合论的思想深入分析了集体词结构。集体词结构是表示一个可数的集体概念,其外延是一个事物类。集体词结构较好地解决了数学领域中的数量词结构的形式化处理问题。首先给出了集体词结构的语义认知基础,并采用基于知识的方法,应用本体论思想,构造了系统的集体词结构模型。然后对集体词结构的群体关系进行分类和介绍。这种集体词结构的处理方法在数学领域智能辅导领域中得到了较好的应用。  相似文献   

2.
知识图是一种新的知识表示方法。本文从本体论的角度出发,将知识图的本体论分别与Aristotle、Kant和Peirce的三种知识表示的本体论进行了比较,表明知识图方法的有效性以及本原性,说明知识图是一种更为一般的知识表示方法。从知识图本体论的观点,研究了各类逻辑词的知识图表示。本文结合汉语的特点,从结构的角度,研究并揭示了逻辑词的共性和规律性。进一步阐明知识图“结构就是含义”的思想。逻辑词的知识图分析将为自然语言分析中词典的建立奠定基础。  相似文献   

3.
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。  相似文献   

4.
在使用计算机处理中文信息时,对词语的自动化发现技术有迫切的需求.因为在互联网时代,词语集合的更新换代非常之快,词语以非常快的节奏产生和消亡,这直接影响着对中文信息自动化处理的准确度和可靠性.为了解决这个难题,本文提出一种基于词激活力模型的中文词语发现方法.该方法将海量汉语语料建模成为有序的汉字序列,建立词激活力模型,分析字与字之间的联系程度,从而对任意两个汉字是否构成词语进行估计.在大规模语料集上的数据实验表明,该方法能够有效地对预料中的潜在词语进行自动化发现,达到了预期目标.  相似文献   

5.
基于遗传算法的汉语未登录词识别   总被引:1,自引:0,他引:1  
针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法.该方法扩大了分词碎片容量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中,单字存在"可组合"和"不可组合"两类,采用遗传算法先将分词碎片中的单字词确定下来,然后将其余相邻单字组合,完成未登录词识别.实验结果表明,该方法可有效地解决未登录词识别问题,提高未登录词识别的精确率和召回率.  相似文献   

6.
基于锚点词对的双语词对齐算法   总被引:5,自引:0,他引:5  
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题.其中涉及词法、语法、语义以及英汉语言问的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率迭77.3%.F值达84.2%.基本上满足了有关应用的实际要采.  相似文献   

7.
作为一种意合型语言,汉语中的构词结构刻画了构词成分之间的组合关系,是认知、理解词义的关键。在中文信息处理领域,此前的构词结构识别工作大多沿用句法层面的粗粒度标签,且主要基于上下文等词间信息建模,忽略了语素义、词义等词内信息对构词结构识别的作用。该文采用语言学视域下的构词结构标签体系,构建汉语构词结构及相关信息数据集,提出了一种基于Bi-LSTM和self-attention的模型,以此来探究词内、词间等多方面信息对构词结构识别的潜在影响和能达到的性能。实验取得了良好的预测效果,准确率达77.87%,F1值为78.36%;同时,对比测试揭示,词内的语素义信息对构词结构识别具有显著的贡献,而词间的上下文信息贡献较弱且带有较强的不稳定性。  相似文献   

8.
《软件工程师》2020,(3):1-3
自然语言处理是人工智能领域中的一个热门方向,而文本分类作为自然语言处理中的关键技术受到专家学者的广泛关注。随着计算机网络的发展,海量的文本踊跃出来。文本越来越多,通过人工对文本进行分类的成本越来越高。本文针对短文本分类问题,使用词袋模型从词向量中提取词频矩阵,删除停止词与低频词。再使用TF-IDF算法提取文本特征,进行文本分类研究,最终可以使短文本以较高的正确率归类。  相似文献   

9.
如何在中文BERT字向量基础上进一步得到高质量的领域词向量表示,用于各种以领域分词为基础的文本分析任务是一个亟待解决的问题。提出了一种基于BERT的领域词向量生成方法。建立一个BERT-CRF领域分词器,在预训练BERT字向量基础上结合领域文本进行fine-tuning和领域分词学习;通过领域分词解码结果进一步得到领域词向量表示。实验表明,该方法仅利用少量的领域文本就可以学习出符合领域任务需求的分词器模型,并能获得相比原始BERT更高质量的领域词向量。  相似文献   

10.
中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用.文中结合提出的新词词间模式特征以及各种词内部模式特征,对从训练语料中抽取正负样本进行向量化,通过支持向量机的训练得到新词分类支持向量.对测试语料结合绝对折扣法进行新词候选的提取与筛选,并与训练语料中提取的词间模式特征以及各种词内部模式特征进行向量化,得到新词候选向量,最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新词候选向量结合进行SVM测试,得到最终的新词识别结果  相似文献   

11.
自然语言处理系统的性能和鲁棒性在很大程度上取决于建模过程中是否有足够的深度标注语料。传统的人工标注方法难以满足大规模、高质量的深度语料标注需求,该文提出了基于群体智慧的语料标注方法,设计了标注模型,并就用户能力评测、语料筛选、任务管理、协作标注、行为分析、质量控制、决策加总、考核激励等具体环节进行分析,提出了解决方案。项目实践表明: 基于群体智慧的语料标注方法在应对创新性很强的自然语言处理研究项目时具有明显的优势。  相似文献   

12.
Text Mining Techniques to Automatically Enrich a Domain Ontology   总被引:3,自引:0,他引:3  
Though the utility of domain ontologies is now widely acknowledged in the IT (Information Technology) community, several barriers must be overcome before ontologies become practical and useful tools. A critical issue is the ontology construction, i.e., the task of identifying, defining, and entering the concept definitions. In case of large and complex application domains this task can be lengthy, costly, and controversial (since different persons may have different points of view about the same concept). To reduce time, cost (and, sometimes, harsh discussions) it is highly advisable to refer, in constructing or updating an ontology, to the documents available in the field. Text mining tools may be of great help in this task. The work presented in this paper illustrates the guidelines of SymOntos, ontology management system, and the text mining approach adopted herein to support ontology building. The latter operates by extracting, from the related literature, the prominent domain concepts and the semantic relations among them.  相似文献   

13.
基于WordNet和自然语言处理技术的半自动领域本体构建   总被引:3,自引:0,他引:3  
现有的大多数本体都是通过手工构建的,然而,本体的构建是一项非常费时费力的过程,近年来有关如何半自动地构建领域本体的研究越来越多。本文提出了一种基于WordNet和自然语言处理技术的领域本体半自动构建方法,该方法能够大大提高本体的构建效率,并且一定程度上能够保证结果本体的质量。实验表明,本文的方法在一定程度上令本体的生成过程实现自动化。  相似文献   

14.
自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究.近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步.该文从自然语言处理评测的概念、构成、发展和意义出发,分类综述了主流自然语言处理评测的任务和特点,进而总结归纳了自然语言处理评测中的问题及其成因.最后...  相似文献   

15.
吕律 《计算机工程》2010,36(7):73-75
针对本体映射精确度不高的问题,提出一种基于自然语言处理的本体映射结果校验方法。对复合词进行启发式处理,分析WordNet词库中词汇所对应注释的语法树,提取与参考本体和目标本体相关的词汇,对已有的本体映射结果进行校验。实验结果表明,该方法能有效提高本体映射的精确度。  相似文献   

16.
Cho  Siu-Yeung  Chi  Zheru  Wang  Zhiyong  Siu  Wan-Chi 《Neural Processing Letters》2003,17(2):175-190
Many researchers have explored the use of neural network models for the adaptive processing of data structures. The learning formulation for one of the models is known as the Backpropagation Through Structure (BPTS) algorithm. The main limitations of the BPTS algorithm are attributed to the problems of slow convergence speed and long-term dependency. In this Letter, a novel heuristic algorithm is proposed. The idea of this algorithm is to optimize the free parameters of the node representation in data structure by using a hybrid type of learning algorithm. Encouraging results achieved demonstrate that this proposed algorithm outperforms the BPTS algorithm.  相似文献   

17.
A method to identify ontology components is presented in this article. The method relies on Natural Language Processing (NLP) techniques to extract concepts and relations among these concepts. This method is applied in the legal field to build an ontology dedicated to information retrieval. Legal texts on which the method is performed are carefully chosen as describing and conceptualizing the legal domain. We suggest that this method can help legal ontology designers and may be used while building ontologies dedicated to other tasks than information retrieval.  相似文献   

18.
为提高句子相似度的准确率,从结构相似度出发,提出基于词性及词性依存关系的句子结构相似度计算方法。该方法从正向和逆向比较句子的词性序列,获得2个句子词性及词性依存关系的最优匹配,从而计算句子结构相似度。实验结果表明,该方法能使句子结构相似度计算更合理。  相似文献   

19.
Representing UNIX Domain Metaphors   总被引:2,自引:0,他引:2  
The language used to describe technical domains like UNIX is filled with metaphor. An approach to metaphor, based on theexplicit representation of knowledge about metaphors, has beendeveloped. MIDAS (Metaphor Interpretation, Denotation, andAcquisition System) is a computer program that that has been developedbased upon this approach. MIDAS can be used to representknowledge about conventional metaphors, interpret metaphoric languageby applying this knowledge, and dynamically learn new metaphors asthey are encountered during normal processing.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号