首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 390 毫秒

1.  基于遗传算法的汉语未登录词识别  被引次数:1
   闫蓉  张蕾《计算机应用与软件》,2008年第25卷第7期
   针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法.该方法扩大了分词碎片容量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中,单字存在"可组合"和"不可组合"两类,采用遗传算法先将分词碎片中的单字词确定下来,然后将其余相邻单字组合,完成未登录词识别.实验结果表明,该方法可有效地解决未登录词识别问题,提高未登录词识别的精确率和召回率.    

2.  汉语自动分词技术研究  被引次数:1
   王凡秀  王自强《计算机与数字工程》,2008年第36卷第11期
   汉语自动分词是中文信息处理的基本问题.从分词的基本理论出发,对近年来中文分词研究的现状进行介绍,指出了能够大幅度提高未登录词识别性能的分词方法将是未来汉语自动分词技术的发展趋势,分析了分词中存在的两个困难及其解决方法.    

3.  基于层叠隐马模型的汉语词法分析  被引次数:64
   刘群  张华平  俞鸿魁  程学旗《计算机研究与发展》,2004年第41卷第8期
   提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中.在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普通词一样处理.未登录词识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识别出未登录词,并计算出真实的可信度.在切分排歧方面,提出了一种基于N-最短路径的策略,即:在早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到.不同层面的实验表明,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用.实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS.该系统在2002年的“九七三”专家组评测中获得第1名,在2003年汉语特别兴趣研究组(ACL Special Interest Groupon Chinese Language Processing,SIGHAN)组织的第1届国际汉语分词大赛中综合得分获得两项第1名、一项第2名.这表明:ICTCLAS是目前最好的汉语词法分析系统之一,层叠隐马模型能够解决好汉语词法问题.    

4.  汉语未登录词识别现状及一种新识别方法介绍  被引次数:1
   王蕾  杨季文《计算机应用与软件》,2007年第24卷第8期
   未登录词的识别对于各种汉语处理系统不仅有直接的实用意义,而且起到基础性的作用.在大规模中文文本的自动分词中,未被识别的未登录词是造成分词错误的一个重要原因,也成为许多自动分词系统走向应用的瓶颈.首先对未登录词的研究现状及现有方法做了一个综合的介绍,分析了目前方案的利弊.在此基础上提出了一个基于框架结构的未登录词专有名词识别方法.    

5.  提高汉语自动分词精度的多步处理策略  被引次数:21
   赵铁军  吕雅娟  于浩  杨沐昀  刘芳《中文信息学报》,2001年第15卷第1期
   汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难,其中两个关键问题是未登录词的识别和切分歧义的消除,本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略,整个处理步骤包括7个部分,即消除伪歧义,句子的全切分,部分确定性切分,数词串处理,重叠词处理,基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理,开放测试结果表明分词精确率可达98%以上。    

6.  基于分词提取重复串的未登录词遗漏量化模型  
   张海军  史树敏  丁溪源  黄河燕《中文信息学报》,2011年第25卷第2期
   基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词.该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题.分析表明,该量化模型与实验数据之间具有良好的交互验证关系.根据时量化模型的讨论,该文得出了应用不同策略进行未登录词识别的可靠结论,该结论对后续研究具有一定的参考价值.    

7.  基于决策树的汉语未登录词识别  被引次数:12
   秦文  苑春法《中文信息学报》,2004年第18卷第1期
   未登录词识别是汉语分词处理中的一个难点.在大规模中文文本的自动分词处理中,未登录词是造成分词错识误的一个重要原因.本文首先把未登录词识别问题看成一种分类问题.即分词程序处理后产生的分词碎片分为‘合'(合成未登录词)和‘分'(分为两单字词)两类.然后用决策树的方法来解决这个分类的问题.从语料库及现代汉语语素数据库中共统计出六类知识:前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率.用这些知识作为属性构建了训练集.最后用C4.5算法生成了决策树.在分词程序已经识别出一定数量的未登录词[6]而仍有分词碎片情况下使用该方法,开放测试的召回率;69.42%,正确率:40.41%.实验结果表明,基于决策树的未登录词识别是一种值得继续探讨的方法.    

8.  一种新词检测方法研究  
   钟将  耿升华  董高峰《数字通信》,2013年第2期
   汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率。    

9.  对专业搜索引擎中未登录词的识别研究  
   张赢  万仲保《计算机技术与发展》,2009年第19卷第5期
   未登录词的识别是中文分词要面对的数个难题之一,解决好了这个问题就能够有力提升中文分词的效率.对此,文中简要介绍了专业搜索引擎的概况,并具体分析了对电影名进行中文分词的特点和介绍了传统的未登录词的识别策略,最后在此基础上提出了一种电影名未登录词的识别策略并简要分析了这种策略未来的优化方向.    

10.  面向专利文献的中文分词技术的研究  
   张桂平  刘东生  尹宝生  徐立军  苗雪雷《中文信息学报》,2010年第24卷第3期
   针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,该文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。    

11.  维汉机器翻译未登录词识别研究  
   米成刚      杨雅婷  陈科海《计算机应用研究》,2013年第30卷第4期
   针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。    

12.  基于词频学习和动态词频更新的藏文自动分词系统设计  
   项 炜 金 澎《计算机应用与软件》,2014年第5期
   藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别技术。在歧义字段分词准确性、未登录词识别率和分词速度上,该系统具有较优的性能。    

13.  汉语框架网中未登录词元的框架选择  
   《中文信息学报》,2014年第3期
   汉语框架网的低覆盖率导致汉语句子中存在许多未登录的词元,严重制约着汉语的框架语义分析任务。针对未登录词元的框架识别问题,该文借助同义词词林的词义信息,提出基于平均语义相似度计算及最大熵模型两种方法,采用静态特征与动态特征相结合的特征选择方法。实验证明,这两种方法都能有效地实现未登录词元的框架选择,基于相似度计算的方法(TOP-4)获得78.61%的准确率;基于最大熵的方法结果可达87.29%,同时在新闻语料上达到了75%的准确率。    

14.  运用改进的分词方法进行外国译名识别的研究  
   方华  王振华  陆汝占  刘绍明《计算机仿真》,2005年第22卷第3期
   该文首先介绍了基于词典的分词算法的语言模型和一种基于词典分词算法:最大词频分词法。分析了基于词典的分词算法的语言模型,指出其无法处理未登录词的原因。针对此原因,提出了引入动态词典的方法,将最大词频分词算法和局部频率法相结合以解决未登录词中译名识别的问题。最后,给出了一个系统实现。    

15.  汉语统计语言模型的N值分析  被引次数:10
   张树武 黄泰翼《中文信息学报》,1998年第12卷第1期
   N元语言模型(n-gram)作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等)中已得到广泛的应用。但是,具体N取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N元语言模型中N值的选择。并得出结论:对于基于真实词的汉语N元语言模型,N的取值范围应介于3至6之间,且N=4为较优。这一结论将有助于汉语统计语言处理的发展。    

16.  汉语词语语义相似度计算研究  被引次数:4
   夏天《计算机工程》,2007年第33卷第6期
   汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方法,该方法从信息论的角度出发,定义了知网义原间的相似度计算公式,通过对未登录词进行概念切分和语义自动生成,解决了未登录词无法参与语义计算的难题,实现了任意词语在语义层面上的相似度计算。针对同义词词林的实验结果表明,该方法的准确率比现有方法高出近15个百分点。    

17.  基于字符串相似度的维吾尔语中汉语借词识别  
   米成刚  杨雅婷  周喜  李晓  杨明忠《中文信息学报》,2013年第27卷第5期
   维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等).该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法.该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型.实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果.    

18.  一种基于词编码的中文文档格式  被引次数:1
   焦慧  刘迁  贾惠波《计算机科学》,2008年第35卷第10期
   分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍.基于中文词的编码方法,以每个词作为一个单位,对词进行编码.此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路.采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果.    

19.  英汉机译中未登录词的识别  
   袁颖芬  张玥杰《电子技术》,2004年第31卷第2期
   文章介绍了英汉机译中识别未登录词的一种新方法。首先通过相似性测量,寻找与未登录词最相似单词,然后通过手工制作的猜测规则,正确标注未登录词。测试结果表明,在以大约91.7%的标注精确率识别未登录词的同时,获得增加至大约97.3%的整体标注精确率。    

20.  基于PAT TREE统计语言模型与关键词自动提取  被引次数:8
   杨文峰  李星《计算机工程与应用》,2001年第37卷第15期
   本登录关键词的识别是中文信息处理中的一个关键问题,文章利用PATTREE《实现了一种可变长统计语言模型,由于不存在n元统计语言模型的截断效应,从而对待提取的关键词的长度没有限制,在该模型的基础上,通过相关性检测,从540M汉语语料中自动提取出了12万个关键词候选字串,最后,经过分析和筛选,候选字串的准确度由82.3%上升到96.1%,实验表明,基于PAT TREE的统计语言模型是实现未登录词提取的有力工具。    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号