首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 152 毫秒
1.
文章主要阐述了自然语言处理的基础技术。首先,文章介绍了藏汉两种文字自然语言处理(NLP)技术的发展历程;其次,文章比较了藏汉两种语言的字,词、句和篇章等层面的信息处理方法的差异性,试图探索和挖掘跨语种的自然语言处理之间的语法特点,从而选取符合语法特征的自然语言处理方法,做到因语施策。  相似文献   

2.
一种基于文章主题和内容的自动摘要方法   总被引:8,自引:0,他引:8  
文章介绍了一种新的使用自然语言处理技术的自动系统。通过融合基于内容的方法和基于主题的方法,将主题与内容相结合,生成具有良好连贯性和流畅性的。该方法首先对主题词进行分析,动态地处理具有抽象标题和具体标题的文档;然后采用词汇、语法、语义分析等自然语言处理技术,对文章的文本内容进行深入分析;再根据线性加权融合两种分析得到的结果,生成;最后采用指代消解技术使生成的更连贯流畅。与仅基于内容的自动文摘系统相比较,评测结果显示,该系统生成的质量有明显提高。  相似文献   

3.
语法分析是自然语言处理中的一个难题和研究热点.针对汉语的语法特点和现实运用中的需求,提出一种基于短语的解决途径和实现此模型的一个系统.与经典的基于语法树的语法分析方法相比,它有更广泛的运用范围,更快的处理速度.在一定运用范围内,它可以视为自然语言处理的一层.  相似文献   

4.
X3D是一种新的语言标准,整合了目前正在发展的java、XML和流技术等技术。以安多藏区藏汉双语教学的现状为例,提出了用X3D技术制作藏汉双语教学课件的方法及开发流程,以期提高整个藏区的藏汉双语教学之效果。  相似文献   

5.
维吾尔语作为一种典型的黏着语,通过丰富的功能词缀来表达各种语法和语气。该文探讨了“词干词性标注方法”与“词缀词性标注方法”在维吾尔语自然语言处理中的优缺点。在大规模语料库中,统计了常用词缀串的数量、频次和覆盖度,以此来判断词缀词性标注方法在自然语言处理中的可行性。以力提甫·托乎提教授的维吾尔语生成语法理论为指导,对词缀串的词性标注进行了相应的语法定义,并且在实际语料中进行了小规模词性标注实验。该文提出的基于词缀串的词性标注方法不仅适用于维吾尔语,也适用于有着大量相似词缀的突厥语族其他语言。  相似文献   

6.
刘小军  赵栋  姚卫东 《计算机仿真》2007,24(12):312-314
为了提高搜索引擎的检索效率以及加强知识产权保护,结合汉语语言学以及自然语言处理的研究成果,提出了一种用于中文文本查重的算法.通过引入"动词中心词"的概念,扩展停用词的范围,将文本中的部分动词组成动词序列作为文本特征串,结合串匹配算法,计算出中文文本间语法相似性.同时根据IFIDF方法提取文本特征并进行权重计算,计算出中文文本间的语义相似性.结合文本间语法相似性和语义相似性得到文章的相似度,可以判断两篇中文内容的相似性,有效地进行重稿检测.  相似文献   

7.
如今信息量呈爆炸式增长,自然语言处理得到了越来越广泛的重视。传统的自然语言处理系统过多地依赖昂贵的人工标注特征和语言分析工具的语法信息,导致预处理中语法信息的错误传递到系统训练和预测过程中。因此,深度学习的应用受到了学者们的关注。因为它能实现端对端预测并尽可能少地 依赖 外部信息。自然语言处理领域流行的深度学习框架为了更好地获取句子信息,采用multi-gram策略。但不同任务和不同数据集的信息分布状况不尽相同,而且这种策略并没有考虑到不同n-gram的重要性分布。针对该问题,提出了一种基于深度学习的自适应学习multi-gram权重的策略,从而根据各n-gram特征的贡献为其分配相应的权重;并且还提出了一种新的multi-gram特征向量结合方法,大大降低了系统复杂度。将该模型应用到电影评论正负倾向判断和关系分类两种分类任务中,实验结果证明采用的自适应multi-gram权重策略能够大大改善模型的分类效果。  相似文献   

8.
随着自然语言处理技术的飞速发展,单纯在语法层上的研究已经不能解决目前的问题,语义层的研究逐渐成为热点。计算语义合成性作为语义学的关键部分,受到了诸多研究人员的关注。计算语义合成性的研究方法可以分为两大类: 语言学方法和分布式方法。该文详细介绍了它们各自具有代表性的工作,着重阐述了近年来使用广泛的深度学习方法在计算语义合成性研究中的应用,并对这两种方法进行了比较;然后对计算语义合成性在情感分析以及机器翻译中的应用做了细致分析;最后,展望了计算语义合成性未来的研究趋势。  相似文献   

9.
语句的主题提取是口语对话系统中话语分析部分的工作。目前的口语对话系统大多将自然语言处理的重点放在语法和语义平面,而忽视了对上下文语境的分析,该文提出一种基于规则的语句主题提取方法,通过自底向上与自顶向下两种分析器完成主题与用户意图的提取,为系统的自然语言生成提供更准确的领域知识,从而大大提高了系统的整体性能。  相似文献   

10.
研究了基于文本交互的自然语言处理技术识别和描述社交网络的结构,分析个体邮件交互内容的语法和语义特征在构建个体关系中的作用,并在此基础上对个体关系强度进行了评价。为进一步探索在线社交网络,文章首先将自然语言处理获取的数据与个体交互的编码样本进行对比,使邮件中涉及到的个体名字能更好匹配;然后分析名字在邮件中出现的具体语境,并判定邮件发送者和个体间是否存在关系;最后通过测定成对个体间的交互信息量为关系指定权值,应用数据集信息进行具体分析。  相似文献   

11.
词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词。该文分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词,通过对自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,这说明词向量计算结果与人的语言直觉具有较高的一致性。总体来说,该文所采用的方法有助于提高藏文语义相似词知识库构建效率。  相似文献   

12.
语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。  相似文献   

13.
随着英汉语音识别技术的不断发展,对少数民族语言语音识别技术的研究也紧跟其后并取得了一定的成果.藏族人民是中华民族大家庭中不可或缺的一员,藏语语音识别技术研究是语音识别技术研究中不可缺少的重要部分.文章首先对国内藏语言语音识别的研究历程及研究改进之处进行了梳理,其次从藏语言本身的文字特点以及发音特点和要素出发详细介绍了藏语语音识别研究中使用到的基于模板匹配、统计概率模型以及人工神经网络3种方法,并对3种方法各自的特点和适用范围进行了总结归纳,最后从藏语言语音识别研究进展和各识别方法的自身特点出发探讨了语音识别研究中存在的难点问题,并展望了其未来发展的方向.  相似文献   

14.
徐琳  赵铁军 《软件学报》2005,16(10):1853-1858
对国家自然科学基金近年来在自然语言处理领域资助的已结题项目进行了综述,内容涉及中文信息处理技术项目总结、自然语言处理应用技术项目总结以及少数民族语言信息处理技术项目总结.  相似文献   

15.
自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表现。  相似文献   

16.
藏文信息处理中要对自然语言进行理解并生成且藏文格与语义有关,藏文格到目前为止都是研究者手动处理,而不是电脑处理,所以需开发出电脑替人自动识别格的软件是当前最急需研究的项目之一,从而藏文研究者和学习者可用此软件对藏文格进行自动识别,还能正确消除藏文语境歧义,而且在时间上、人力上都大大节省且提高了效率。本文通过研究藏文格的用法,建设藏文八格的知识库和藏文八格的算法及识别研究。  相似文献   

17.
央金藏文分词系统   总被引:3,自引:0,他引:3  
藏文分词是藏文信息处理的一个基本步骤,该文描述了我们将一个基于HMM的汉语分词系统Segtag移植到藏文的过程,取得了91%的准确率。又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。  相似文献   

18.
语义角色标注研究对自然语言处理具有十分重要的意义。英汉语语义角色标注研究已经获得了很多成果。然而藏语语义角色标注研究不管是资源建设,还是语义角色标注的技术探讨都鲜有报道。藏语具有比较丰富的句法标记,它们把一个句子天然地分割成功能不同的语义组块,而这些语义组块与语义角色之间存在一定的对应关系。根据这个特点,该文提出规则和统计相结合的、基于语义组块的语义角色标注策略。为了实现语义角色标注,文中首先对藏语语义角色进行分类,得到语义角色标注的分类体系;然后讨论标注规则的获得情况,包括手工编制初始规则集和采用错误驱动学习方法获得扩充规则集;统计技术上,选用了条件随机场模型,并添加了有效的语言特征,最终语义角色标注的结果准确率、召回率和F值分别达到82.78%、85.71%和83.91%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号