共查询到19条相似文献,搜索用时 78 毫秒
1.
根据数学领域自然语言理解的特点,结合集合论的思想深入分析了集体词结构。集体词结构是表示一个可数的集体概念,其外延是一个事物类。集体词结构较好地解决了数学领域中的数量词结构的形式化处理问题。首先给出了集体词结构的语义认知基础,并采用基于知识的方法,应用本体论思想,构造了系统的集体词结构模型。然后对集体词结构的群体关系进行分类和介绍。这种集体词结构的处理方法在数学领域智能辅导领域中得到了较好的应用。 相似文献
2.
3.
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。 相似文献
4.
5.
基于遗传算法的汉语未登录词识别 总被引:1,自引:0,他引:1
针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法.该方法扩大了分词碎片容量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中,单字存在"可组合"和"不可组合"两类,采用遗传算法先将分词碎片中的单字词确定下来,然后将其余相邻单字组合,完成未登录词识别.实验结果表明,该方法可有效地解决未登录词识别问题,提高未登录词识别的精确率和召回率. 相似文献
6.
基于锚点词对的双语词对齐算法 总被引:5,自引:0,他引:5
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题.其中涉及词法、语法、语义以及英汉语言问的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率迭77.3%.F值达84.2%.基本上满足了有关应用的实际要采. 相似文献
7.
作为一种意合型语言,汉语中的构词结构刻画了构词成分之间的组合关系,是认知、理解词义的关键。在中文信息处理领域,此前的构词结构识别工作大多沿用句法层面的粗粒度标签,且主要基于上下文等词间信息建模,忽略了语素义、词义等词内信息对构词结构识别的作用。该文采用语言学视域下的构词结构标签体系,构建汉语构词结构及相关信息数据集,提出了一种基于Bi-LSTM和self-attention的模型,以此来探究词内、词间等多方面信息对构词结构识别的潜在影响和能达到的性能。实验取得了良好的预测效果,准确率达77.87%,F1值为78.36%;同时,对比测试揭示,词内的语素义信息对构词结构识别具有显著的贡献,而词间的上下文信息贡献较弱且带有较强的不稳定性。 相似文献
8.
9.
如何在中文BERT字向量基础上进一步得到高质量的领域词向量表示,用于各种以领域分词为基础的文本分析任务是一个亟待解决的问题。提出了一种基于BERT的领域词向量生成方法。建立一个BERT-CRF领域分词器,在预训练BERT字向量基础上结合领域文本进行fine-tuning和领域分词学习;通过领域分词解码结果进一步得到领域词向量表示。实验表明,该方法仅利用少量的领域文本就可以学习出符合领域任务需求的分词器模型,并能获得相比原始BERT更高质量的领域词向量。 相似文献
10.
中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用.文中结合提出的新词词间模式特征以及各种词内部模式特征,对从训练语料中抽取正负样本进行向量化,通过支持向量机的训练得到新词分类支持向量.对测试语料结合绝对折扣法进行新词候选的提取与筛选,并与训练语料中提取的词间模式特征以及各种词内部模式特征进行向量化,得到新词候选向量,最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新词候选向量结合进行SVM测试,得到最终的新词识别结果 相似文献
11.
12.
Text Mining Techniques to Automatically Enrich a Domain Ontology 总被引:3,自引:0,他引:3
Though the utility of domain ontologies is now widely acknowledged in the IT (Information Technology) community, several barriers must be overcome before ontologies become practical and useful tools. A critical issue is the ontology construction, i.e., the task of identifying, defining, and entering the concept definitions. In case of large and complex application domains this task can be lengthy, costly, and controversial (since different persons may have different points of view about the same concept). To reduce time, cost (and, sometimes, harsh discussions) it is highly advisable to refer, in constructing or updating an ontology, to the documents available in the field. Text mining tools may be of great help in this task. The work presented in this paper illustrates the guidelines of SymOntos, ontology management system, and the text mining approach adopted herein to support ontology building. The latter operates by extracting, from the related literature, the prominent domain concepts and the semantic relations among them. 相似文献
13.
基于WordNet和自然语言处理技术的半自动领域本体构建 总被引:3,自引:0,他引:3
现有的大多数本体都是通过手工构建的,然而,本体的构建是一项非常费时费力的过程,近年来有关如何半自动地构建领域本体的研究越来越多。本文提出了一种基于WordNet和自然语言处理技术的领域本体半自动构建方法,该方法能够大大提高本体的构建效率,并且一定程度上能够保证结果本体的质量。实验表明,本文的方法在一定程度上令本体的生成过程实现自动化。 相似文献
14.
15.
针对本体映射精确度不高的问题,提出一种基于自然语言处理的本体映射结果校验方法。对复合词进行启发式处理,分析WordNet词库中词汇所对应注释的语法树,提取与参考本体和目标本体相关的词汇,对已有的本体映射结果进行校验。实验结果表明,该方法能有效提高本体映射的精确度。 相似文献
16.
Many researchers have explored the use of neural network models for the adaptive processing of data structures. The learning formulation for one of the models is known as the Backpropagation Through Structure (BPTS) algorithm. The main limitations of the BPTS algorithm are attributed to the problems of slow convergence speed and long-term dependency. In this Letter, a novel heuristic algorithm is proposed. The idea of this algorithm is to optimize the free parameters of the node representation in data structure by using a hybrid type of learning algorithm. Encouraging results achieved demonstrate that this proposed algorithm outperforms the BPTS algorithm. 相似文献
17.
A method to identify ontology components is presented in this article. The method relies on Natural Language Processing (NLP)
techniques to extract concepts and relations among these concepts. This method is applied in the legal field to build an ontology
dedicated to information retrieval. Legal texts on which the method is performed are carefully chosen as describing and conceptualizing
the legal domain. We suggest that this method can help legal ontology designers and may be used while building ontologies
dedicated to other tasks than information retrieval. 相似文献
18.
19.
Representing UNIX Domain Metaphors 总被引:2,自引:0,他引:2
James H. Martin 《Artificial Intelligence Review》2000,14(4-5):377-401
The language used to describe technical domains like UNIX is filled with metaphor. An approach to metaphor, based on theexplicit representation of knowledge about metaphors, has beendeveloped. MIDAS (Metaphor Interpretation, Denotation, andAcquisition System) is a computer program that that has been developedbased upon this approach. MIDAS can be used to representknowledge about conventional metaphors, interpret metaphoric languageby applying this knowledge, and dynamically learn new metaphors asthey are encountered during normal processing. 相似文献