首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
书面汉语自动分词综述   总被引:9,自引:0,他引:9  
汉语分词是汉语言处理有别于拼音文字语言处理的特点之一。本文回顾了汉语自动分词的研究历史;对现有的四种计算机自动分词方法进行了评介;介绍了当前的研究现状和存在的困难。  相似文献   

2.
歧义处理是影响分词系统切分精度的重要因素,是自动分词系统设计中的一个核心问题。本文介绍了一种新的分词算法,利用汉语句内相邻字之间的互信息及t-信息差这两个统计量,解决汉语自动分词中的歧义字段的切分问题。试验结果表明,该方法可以有效地提高歧义处理的正确率。  相似文献   

3.
尹锋  林亚平 《软件世界》1996,(12):76-80
神经网络研究从40年代信息科学的开创时期诞生到现在走过了半个世纪的曲折历程后,迎来了一个空前活跃的新的发展时期,成为现代脑神经科学、数理科学及信息科学等综合研究领域的共同科学前沿之一。 自然语言自动分词与处理的研究在国外发端于50年代末,现已获得很大进展,我国汉语自动分词的研究起步较晚,始于80年代初,近几年来取得明显成效。但由于汉语结构上的复杂性和分词理论与技术等诸多原因的影响,使得汉语自动分词未能取得重大的实质性突破。 采用包括神经网络、专家系统在内的人工智能技术进行汉语自动分词研究,是当前中文信息处理领域的热门话题,也是该领域的一个重要发展方向。 为帮助广大读者了解汉语自动分词的研究进展以及神经网络等人工智能技术在汉语言处理方面的应用情况,本刊约请尹锋和林亚平同志撰写了《神经网络的发展及其在汉语言处理方面的应用》、《汉语自动分词技术的现状及发展趋势》、《神经网络汉语自动分词技术》和《神经网络专家系统集成式汉语自动分词技术》等四篇文章。尹锋和林亚平同志多年从事计算机科研与教学工作,发表了一系列成果和论文,近年来,致力于神经网络和汉语自动分词研究,这几篇文章反映了他们的部分研究成果。 《神经网络的发展及其在汉语言处理方面的应用》  相似文献   

4.
回顾了书面汉语自然分词的研究历史,提出了一种新的汉语分词设想——综合匹配法,并且给出了处理流程。  相似文献   

5.
一种基于提取上下文信息的分词算法   总被引:8,自引:0,他引:8  
汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如人意。文章提出一种基于上下文信息提取的概率分词算法,能够将切分文本的上下文信息加入到分词概率模型中,以指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在封闭和开放测试环境中分别取得了比较好的效果。  相似文献   

6.
“信息处理用现代汉语分词规范”的若干问题探讨   总被引:6,自引:1,他引:5  
汉语信息处理技术的重点已由单个字符处理过渡到词处理和句子处理, 过渡的基点是分词, 一个统一的分词规范国家标准对于众多信息处理系统之间的兼容性具有不言而喻的重要意义。目前, “信息处理用现代汉语分词规范(国家标准)”正在制订和审定。本文讨论了几个与此相关的问题, 分析了汉语信息处理用词的特点, 对“分词规范”和汉语拼音正词法作了比较, 对“分词规范”和民族语用心理习惯的关系也进行了探讨, 在此基础上, 作者对“分词规范”提出了一些个人意见和建议。  相似文献   

7.
分词识别和歧义消除是影响信息检索系统准确度的重要因素,该文提出了一种基于语法和语义的使用约束矩阵的中文分词算法。该算法建立在语法和句法的基础上,从语境角度分析歧义字段,提高分词准确率。系统可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,并得到一个词典。再用《现代汉语语法信息词典》进行处理,实验结果显示分词准确率能提高10%左右。  相似文献   

8.
一种汉语分词方法   总被引:40,自引:4,他引:36  
本文对现有的汉语分词方法作了概述,然后,提出了一种新的汉语分词方法--单扫描分词方法,并对单扫描汉语分词方法的时间复杂度作了分析。分析表明,单扫描分词方法的时间复杂度为2.89,比现有的分词方法的时间复杂度12.32小得多。单扫描分词方法无论在理论,还是在实践上都有重大的意义。  相似文献   

9.
提出了一种新的汉语统计模型CNET,在此基础上提出了一种汉语无词典自动分词算法.该算法首先学习要进行处理的汉语语料,构建CNET,然后根据学习到的知识再去对原始语料进行分词.实验结果表明,该算法分词正确率在70%以上.  相似文献   

10.
曲维光 《计算机科学》2002,29(Z1):54-56
1引言 计算机自动分词是现代汉语处理的重要组成部分,也是最基础的工作.汉语处理的后续工作,如词性标注、句法分析、语义分析、篇章理解以及机器翻译等,都以自动分词后的文本作为处理的起点.要想最终实现高质量的篇章理解和机器翻译系统,自动分词质量的高低至关重要.  相似文献   

11.
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。  相似文献   

12.
古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F1值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。  相似文献   

13.
提高汉语自动分词精度的多步处理策略   总被引:21,自引:6,他引:15  
汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略,整个处理步骤包括7个部分,即消除伪歧义、句子的全切分、部分确定性切分、数词串处理、重叠词处理、基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理。开放测试结果表明分词精确率可达98%以上。  相似文献   

14.
基于主题语言模型的句子检索算法   总被引:1,自引:0,他引:1  
提出了基于主题语言模型的汉语问答系统句子检索算法,该算法利用问答系统中特有的提问分类信息(即提问的答案语义信息)对句子初检结果进行主题聚类,通过Aspect Model将句子所属的主题信息引入到语言模型中,从而获得对句子语言模型更精确的描述 .对于初检结果的聚类,提出了"一个句子多个主题"和"一个句子一个主题"两种算法 .相对于PLSI算法的主题空间维度,提出的主题空间具有更加明确的物理意义;由于不需要迭代运算,运行速度更具优势 .对比实验的结果表明,与标准语言模型方法相比,基于主题语言模型的方法可以明显地提高汉语问答系统句子检索模块的性能 .  相似文献   

15.
梁喜涛  顾磊 《计算机科学》2015,42(6):228-232, 261
分词是中文自然语言处理中的一项关键基础技术.为了解决训练样本不足以及获取大量标注样本费时费力的问题,提出了一种基于最近邻规则的主动学习分词方法.使用新提出的选择策略从大量无标注样本中选择最有价值的样本进行标注,再把标注好的样本加入到训练集中,接着使用该集合来训练分词器.最后在PKU数据集、MSR数据集和山西大学数据集上进行测试,并与传统的基于不确定性的选择策略进行比较.实验结果表明,提出的最近邻主动学习方法在进行样本选择时能够选出更有价值的样本,有效降低了人工标注的代价,同时还提高了分词结果的准确率.  相似文献   

16.
中文分词对中文信息检索系统性能的影响   总被引:7,自引:0,他引:7  
中文分词作为中文信息处理最重要的预处理手段被广泛应用,该文从两个方面(检索精度和召回率)深入研究了中文分词精度和分词算法对中文信息检索性能的影响。此外,提出了两个假设,并在此基础上给出了一种提高中文信息检索系统性能的方法。实验表明,新方法能够取得很好的结果,证实了这两个假设。  相似文献   

17.
一种基于字词联合解码的中文分词方法   总被引:9,自引:1,他引:8  
宋彦  蔡东风  张桂平  赵海 《软件学报》2009,20(9):2366-2375
近年来基于字的方法极大地提高了中文分词的性能,借助于优秀的学习算法,由字构词逐渐成为中文分词的主要技术路线.然而,基于字的方法虽然在发现未登录词方面有其优势,却往往在针对表内词的切分效果方面不及基于词的方法,而且还损失了一些词与词之间的信息以及词本身的信息.在此基础上,提出了一种结合基于字的条件随机场模型与基于词的Bi-gram语言模型的切分策略,实现了字词联合解码的中文分词方法,较好地发挥了两个模型的长处,能够有效地改善单一模型的性能,并在SIGHAN Bakeoff3的评测集上得到了验证,充分说明了合理的字词结合方法将有效地提高分词系统的性能,可以更好地应用于中文信息处理的各个方面.  相似文献   

18.
为了将中文树库更好地服务于国际汉语教学,考虑到语法教学中句式框架的整体性,该文引入基于句式结构的句本位图解树库,深入分析其结构特征,并基于句式结构的分层抽取思路,提取了蕴含在每个标注句中的句式实例,构建了汉语句式实例库,具体分为基础句式实例库和复杂句式实例库两部分。该项工作使得小规模标注树库可以获取较大规模的句式实例库,为句本位图解树库在国际汉语教学中的应用提供了一种有效的数据解决方案。  相似文献   

19.
提出了一种与分词一体化的人名识别方法,根据中文人名内部用字产生潜在人名,可信度较高的潜在人名与其它候选切分词共同组成分词有向图的节点。利用Bigram和Trigram给有向边赋值,使有向图的最短路径对应句子的正确切分,确定了句子的切分路径即可识别出句子中的人名。实验结果表明,该方法取得了较好的人名识别正确率。  相似文献   

20.
汉英机器翻译源语分析中词的识别   总被引:1,自引:1,他引:0  
汉英MT源语分析首先遇到的问题是词的识别。汉语中的“词”没有明确的定义,语素和词、词和词组、词组和句子,相互之间也没有清楚的界限。按照先分词、再句法分析的办法,会在分词时遇到构词问题和句法问题相互交错的困难。作者认为,可以把字作为源语句法分析的起始点,使词和词组的识别与句法分析同时进行。本文叙述了这种观点及其实现过程,并且以处理离合词为例,说明了识别的基本方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号