首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 350 毫秒
1.
“中文分词十年回顾”一文中有“理解和分词孰先孰后”这一节,专门讨论NLPwin中文系统的分词。作为该系统的开发者之一,我觉得有必要对这个问题作一反省。
作为一门科学,语言学的目标之一是了解人类语言处理的机制。对我而言,计算语言学的最高境界是做出一套能反映人脑语言机制真实状况的, 具有心理学价值的电脑系统。从心理语言学的角度看,“理解和分词孰先孰后”这个问题是不存在的。人脑分析句子的过程显然是一个分词和理解互动的过程,理解依赖于分词,分词也依赖于理解。NLPwin中文系统的设计理念就是要反映人脑的这一分析过程。我们没有做一个专用于分词的系统,因为孤立的分词不是一种自然的人类语言行为。
从工程的角度看,分词和理解是完全可以分开的。对于工程来说,切分一个汉语的字串和切分任何其他字串没有太大的区别。我们可以把最好的、具有通用性的切分技术用于汉语分词。在此过程中我们不需要知道所切汉语字串所表达的意义。这里所要解决的主要是一个数学问题,而不是语言理解问题。把理解插入分词过程会大大增加计算的复杂度,其结果往往是得不偿失。所以如果我们的目的仅仅是分词,理解是没有必要的。  相似文献   

2.
几何命题处理中的中文分词技术   总被引:2,自引:1,他引:1  
佘莉  符红光  方海光 《计算机工程》2005,31(18):180-182
如何将自然语言表述的初等几何命题自动转化为计算机可理解的作图语言是自然语言处理中的空白,也是实现教育软件人机交互的难点.而中文分词是自然语言处理的第1步,分词结果直接影响后期的处理工作.该文通过对几何范围内的受限语言的研究,建立了有效可行的语言理解模型,完成了词素的切分和词性标注,并在程序上得以实现.  相似文献   

3.
自然语言理解目前不仅成为第五代计算机的核心目标之一,而且日益成为计算机科学、认知心理学、数理语言学等学科研究的共同问题。本文在对自然语言理解这一极为复杂的认识过程以及语言理解系统的组成作了较深入分析的基础上,提出了以知识库为中心的语言理解系统框图。并且对汉语语言知识库的构造作了初步探讨。  相似文献   

4.
自然语言理解中的音字流自动分词   总被引:2,自引:0,他引:2  
本文讨论了自然语言理解中的语音流和文字流的自动分词问题;构造了汉语理解的层次化模型;提出了把反馈信息限定为最简形式从而使分词层与语义无关的思想以及词串排序的三种策略:按可能性大小排序, 按运算时间长短排序,以及上述两种的综合;介绍了一种分词精度极高的分词方法FWF;并且给出了实现算法和实验结果。FWF分词方法已经在语句级键盘输入、声音输入、手写汉字输入系统上使用。  相似文献   

5.
葛锐 《软件》2013,34(3)
汉语分词,就是将中文语句中的词汇切分出来的过程.分词技术作为中文信息处理的基础环节,它的解决是计算机自然语言理解、人工智能、信息检索、机器翻译等领域突破的关键.因此,开发出一个高精度的汉语分词系统对于中文信息处理显得非常重要.本文讨论了中文分词的概念、目标及其所面临的一些基本问题,并详细介绍了我以自己的认识为基础设计的分词词典以及分词算法.  相似文献   

6.
在信息处理中,自然语言理解的基础是词语的切分,由于汉语本身的特点,分词技术显得尤为重要.本文首先提出了分词中的歧义现象,然后对分词技术中所用到的方法作分析研究,最后阐述了国内几种分词系统并作比较.  相似文献   

7.
危辉  危炜 《计算机科学》2002,29(5):94-96
一、问题的由来本文中所说的语言,更多的是指个体的、作为个人认知活动一部分的言语层面的现象。基于物理符号系统假设、假设低阶结构不连续的传统人工智能方法对自然语言理解问题处理不力的原因,在于语言的符号性仅是它的一个方面,可以说就象是冰山一角,其实大部分复杂性还隐藏在水面之下。用形式化的方法对语言进行描述,其可能实现的完善性程度是有限的,许多语言学问题的出现和解决有更深层的、涉及整个言语机制的内在特征。在言语的获取、理解和产生过程中存在许多推理问题,包括归纳、类比和演绎类型,对于这些推理的执行过程和发生条件非常值得进行深入的探究,我们会发现语义是基础。对发生  相似文献   

8.
自然语言理解可以分为五个层次;单词、短评、句子、段落和篇章,每层次都与其它层次相关联,背景知识包含了所有层次的语言元素及其在实际环境中的使用,本文着重讨论了背景知识在汉语自动分词和基于语义关联的篇章理解。  相似文献   

9.
本文分为三部分: 首先, 概述了目前自然语言理解主要是汉语理解技术的现状, 指出迄今为止用于自然语言理解的语言知识几乎都是来自书面语料的, 是单媒体的。 其次, 从七个不同层次分析了(汉语) 自然语言理解中存在的多重歧义问题, 指出多重歧义如何消解是目前自然语言理解中的难题。 第三, 论证了多媒体与虚拟现实技术在自然语言理解中的作用, 指出语言交际和交际环境的多媒体性质, 主张建立多媒体语言资料库, 获取多媒体语言交际知识, 从而从语言学的角度论述了将最新的多媒体和虚拟现实技术用于自然语言理解的必要与可能。  相似文献   

10.
基于面向对象的受限自然语言查询系统的设计与实现   总被引:3,自引:0,他引:3  
该文针对当前研究的热点问题--界面层自然语言理解的应用,设计了一个基于面向对象设计方法的受限自然语言数据库查询系统。该系统允许用户输入比较随意的中文查询命令,把用户的输入转换成标准的SQL语句,在事先规定的数据库中完成用户所要求的查询,并对中文分词的歧义处理,提出了一种新的分词算法IFM算法,有效地解决了交叉型歧义切分问题。  相似文献   

11.
基于区分词的汉语隐喻短语识别   总被引:1,自引:1,他引:0  
符建辉  曹存根  王石 《计算机科学》2010,37(10):193-196,232
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的中心地位。从计算语言学和自然语言处理的角度来考虑,隐喻问题若不能得到很好的处理,语言理解和机器翻译的效果都会受到影响。通过观察隐喻短语和非隐喻短语在汉语中的上下文发现,有一批词可用于有效地识别隐喻短语,称之为区分词。首先从Web中自动抽取了一部分区分词,进而提出了一种基于区分词的隐喻短语识别方法。实验表明基于区分词的识别方法是有效的。  相似文献   

12.
Sign language is the most important means of communication for deaf people. Given the lack of familiarity of non-deaf people with the language of deaf people, designing a translator system which facilitates the communication of deaf people with the surrounding environment seems to be necessary. The system of translating the sign language into spoken languages should be able to identify the gestures in sign language videos. Consequently, this study provides a system based on machine vision to recognize the signs in continuous Persian sign language video. This system generally consists of two main phases of sign words extraction and their classification. Several stages, including tracking and separating the sign words, are conducted in the sign word extraction phase. The most challenging part of this process is separation of sign words from video sequences. To do this, a new algorithm is presented which is capable of detecting accurate boundaries of words in the Persian sign language video. This algorithm decomposes sign language video into the sign words using motion and hand shape features, leading to more favorable results compared to the other methods presented in the literature. In the classification phase, separated words are classified and recognized using hidden Markov model and hybrid KNN-DTW algorithm, respectively. Due to the lack of proper database on Persian sign language, the authors prepared a database including several sentences and words performed by three signers. Simulation of proposed words boundary detection and classification algorithms on the above database led to the promising results. The results indicated an average rate of 93.73 % for accurate words boundary detection algorithm and the average rate of 92.4 and 92.3 % for words recognition using hands motion and shape features, respectively.  相似文献   

13.
在聊天机器人多轮对话中如何根据上下文理解用户的意图是多轮交互中的一个重点问题,也是一个难点问题。现有的问句理解方法大多是针对单句的,且侧重于某种句式结构的理解。如何根据上下文语境对当前用户的意图进行识别,而不仅仅是针对单轮进行一个个分析,使得对话在一个连续的语境下具备细粒度的理解能力,是一个亟待解决的问题。针对以上问题,提出了一种基于深度学习的自然语言问句多意图分类方法,其中涉及到的用户意图包含闲聊类、音乐类、新闻类、算术类、餐饮类、订票类、天气类、服务类等13类。首先使用自然语言处理的相关技术对多轮对话进行处理分析,识别出其中的关键词,然后使用深度学习方法和分层分类技术构建了二分类和多分类深度学习模型,学习上下文语境和语义关系,共同对用户意图进行识别。通过实验证明了构建的深度学习模型对用户意图识别的准确率分别为94.81%、93.49%。因此,所提方法基本能够解决自然语言问句意图识别的问题。  相似文献   

14.
Put simply, those who construct the system, the designers, should own the requirements. To understand why, let's step back and examine what requirements really are. If we think of the requirements process as a black box, there are inputs to the process, things happening inside the black box, and outputs from the process. Inputs to the process include discussions with customers, past products, competitors' solutions, prototypes, and new ideas. Many authors have claimed that the primary output of a requirements process is a requirements specification. Not so. The primary output is our collective understanding of the customer's problem. The specification is only a representation, a model of that understanding. Although important, it is still a secondary product of the requirements process. One can think of requirements as “anything that drives design choices”. Based on that definition, a system's requirements are the collection of the reasons why we choose to design it as we do. Design choices are made not on paper, but inside the minds of designers. The choices are documented on paper. There are many other outputs of the requirements process, such as dataflow diagrams, object models, state models, event models, entity relationship models, natural language statements, and so on. The main benefit of producing all these artifacts is a better and agreed upon understanding of the problem, so that we can design more effective solutions for it  相似文献   

15.
模型驱动开发方法逐渐成为安全关键信息物理融合系统(safety-critical cyber-physical system,SC-CPS)设计与开发的重要手段.然而,安全关键信息物理融合系统需求往往是通过自然语言描述的,如何自动化或半自动化链接自然语言需求和基于模型驱动的系统设计与开发过程是目前面临的重要挑战.面向安全关键信息物理融合系统,提出基于限定中文自然语言需求的SysML模型自动生成方法RNL2SysML.首先,为了降低自然语言需求表达的二义性,提出一种结构化的限定自然语言需求模板进行需求规约,并通过基于人工智能的(AI)安全关键信息物理融合系统术语提取和推荐方法,对系统需求中的领域术语和数据字典加以自动提取,提高限定自然语言需求规约工作的自动化程度.然后,给出限定自然语言需求规约到SysML系统设计模型的转换方法.最后,基于开源工具Papyrus对所提方法进行了原型工具实现,并通过航空领域的飞机空气增压系统(airplane air compressor system)案例验证了方法的有效性和实用性.  相似文献   

16.
17.
自然语言是人类智慧的结晶,以自然语言的形式与计算机进行交互是人们长久以来的期待。随着自然语言处理技术的发展与深度学习方法的兴起,人机对话系统成为了新的研究热点。人机对话系统按照功能可以分为任务导向型对话系统、闲聊型对话系统、问答型对话系统。任务导向型对话系统是一种典型的人机对话系统,旨在帮助用户完成某些特定的任务,有着十分重要的学术意义和应用价值。文中系统地阐述了一种在实际工程应用中的任务导向型对话系统的通用框架,主要包括自然语言理解、对话管理以及自然语言生成3个部分;介绍了上述各部分所采用的经典深度学习和机器学习方法。最后,对自然语言理解任务进行了实证性的实验验证与分析,结果表明文中内容可以为任务导向型对话系统的构建提供有效指导。  相似文献   

18.
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接影响到自然语言处理中诸多问题的解决.现在大部分的词义消歧方法都是在分词的基础上做的.借鉴前人的向量空间模型运用统计的方法,提出了不用直接分词而在术语抽取的基础上做消歧工作.在义项矩阵的计算中,采用改进了的tf.idf.ig方法.在8个汉语高频多义次的测试中取得了平均准确率为84.52%的较好的效果,验证了该方法的有效性.  相似文献   

19.
自然语言理解是人工智能最活跃的研究领域之一,同时也是目前前沿的课题之一.该领域的研究人员通过对隐马尔可夫模型这一数学模型的跨领域应用,解决了自然语言理解中的瓶颈问题.文章系统阐述了隐马尔可夫模型的原理以及在语音识别和词性标注方面应用的过程,从而为更多研究者了解和认识.  相似文献   

20.
文中详细论述了模型驱动的软件开发模式。阐述了以代码为中心的传统软件开发模式的缺点,并通过对模型驱动架构(MDA)涔系结构的讨论.分析出模型各个层次描述语言的要求。分别讨论了MDA软件开发生命周期、MDA软件开发参与者及活动的变更和MDA开发工具的更新,并对MDA软件开发模式进行了评价。在模型驱动的软件开发模式下,软件开发生命周期是由软件系统建模行为驱动的.其开发过程围绕模型的创建和变换开展,其最终目的就是要通过架构性的分离来实现软件开发的轻便性、互操作性和可重用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号