首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
为提高各行业领域未登录词识别效果,提出一种基于扩展规则与统计特征的未登录词识别方法。分析行业领域未登录词构词特点,制定扩展规则,根据扩展规则对分词项进行扩展得到复合词,通过词频、互信息、邻接熵等统计特征判别复合词是否为未登录词。若为未登录词,则对其继续扩展和识别。六个行业领域和通用领域未登录词识别实验结果表明,提出方法取得了较好的未登录词识别效果,具有较好的移植性。  相似文献   

2.
统计与规则结合的一种新词识别方法   总被引:5,自引:0,他引:5  
一种新的基于统计的窗口移动扩展法,即把未登录词的子串当作一个窗口,在未登录词串中移动和扩展窗口并记录每个窗口的状态。该方法可以有效识别大部分新词。  相似文献   

3.
在此前的汉语未登录词语义预测中,构词相关的知识一直被当做预测的手段,而没有被视为一种有价值的知识表示方式,该文在“语素概念”基础上,深入考察汉语的语义构词知识,给出未登录词的“多层面”的词义知识表示方案。针对该方案,该文采用贝叶斯网络方法,构建面向汉语未登录词的自动语义构词分析模型,该模型能有效预测未登录词的“多层面”的词义知识。这种词义知识表示简单、直观、易于拓展,实验表明对汉语未登录词的语义预测具有重要的价值,可以满足不同层次的应用需求。  相似文献   

4.
基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词.该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题.分析表明,该量化模型与实验数据之间具有良好的交互验证关系.根据时量化模型的讨论,该文得出了应用不...  相似文献   

5.
长文本武侠小说中主人公以侠客和义士为主,人物个性鲜明,外号可以概括人物最显著的特征。传统命名实体识别主要集中在人名、地名、机构名等领域,对于识别外号尚未有相关研究,但作为武侠小说中不可或缺的元素,外号识别对于同义词识别等研究方向具有借鉴意义。鉴于此,该文提出对武侠小说中武侠人名对应的外号的未登录词扩展识别筛选并辅以固定句式法则的识别方法。未登录词扩展识别筛选方法融合了对于左邻字符串的拓展和筛选同时定义了竞争外号子串和候选外号子串等概念,固定句式法则方法是通过外号指示词对观察窗口的候选外号子串进行筛选。经过统计和分类提出了武侠小说高频词表和低频指示字典,用于对竞争外号子串进行筛选。实验证明该文方法可行有效。  相似文献   

6.
中文分词是中文自然语言处理的重要任务, 其目前存在的一个重大瓶颈是未登录词识别问题. 该文提出一种非监督的基于改进PMI和最小邻接熵结合策略的未登录词识别方法. 滤除文本中无关识别的标点符号和特殊字符后, 此方法先运用改进PMI算法识别出文本中凝聚程度较强的字符串, 并通过停用词词表和核心词库的筛选过滤, 得到候选未登录词; 然后, 计算候选未登录词的最小邻接熵, 并依据词频-最小邻接熵判定阈值, 确定出文本中的未登录词. 通过理论及实验分析, 此方法对不同的文本, 在不需要长时间学习训练调整参数的情况下, 即可生成个性化的未登录词词典, 应用于中文分词系统后, 其分词正确率、召回率分别达到81.49%、80.30%.  相似文献   

7.
神经机器翻译为机器翻译提供了一种全新的方法,在多对语言之间的翻译质量上,已超过了统计机器翻译,并逐渐成为当前机器翻译的主流方向。未登录词翻译是神经机器翻译的主要难点之一。为了消解未登录词,一种可行的方案是采用Byte Pair Encoding(BPE)方法。该方法在翻译前将原有的单词拆解为更小粒度的高频子字单元。该文主要探究BPE方法在中英神经机器翻译中的应用,分析BPE方法在多大程度上可以解决中英未登录词翻译缺失的问题。实验表明,与Baseline系统相比,BPE方法获得了1.02 BLEU值的提升,对未登录词的翻译精准度达到了45%,与统计机器翻译系统翻译精准度相似。  相似文献   

8.
汉语框架网的低覆盖率导致汉语句子中存在许多未登录的词元,严重制约着汉语的框架语义分析任务。针对未登录词元的框架识别问题,该文借助同义词词林的词义信息,提出基于平均语义相似度计算及最大熵模型两种方法,采用静态特征与动态特征相结合的特征选择方法。实验证明,这两种方法都能有效地实现未登录词元的框架选择,基于相似度计算的方法(TOP-4)获得78.61%的准确率;基于最大熵的方法结果可达87.29%,同时在新闻语料上达到了75%的准确率。  相似文献   

9.
面向专利文献的中文分词技术的研究   总被引:1,自引:0,他引:1  
针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,该文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。  相似文献   

10.
一种基于逐层扫描的频繁字串快速提取算法   总被引:1,自引:0,他引:1  
串频统计是一种简便有效的抽取未登录词方法.本文提出了一种快速的频繁字串提取和计频方法,通过逐层扫描快速发现频繁字串,修正字串有效出现频次,最后抽取平均互信息量达到阈值的字串.实验结果显示该方法有效可行.  相似文献   

11.
鉴于维吾尔语丰富的形态变化产生大量单词引起的集外词(out of vocabulary,OOV)问题,为了定量研究OOV对维吾尔语语音识别的影响,采用控制语料库测试集OOV的算法及最佳文本挑选算法对不同OOV的测试集进行实验,算法通过Python语言实现.应用该算法进行电话语音库的文本转写,构建了维吾尔语的电话语音库.实验结果表明,该控制测试集OOV的方法能够有效地提高维吾尔语语音识别率.  相似文献   

12.
该文针对关键词检测和实用语音识别中OOV(Out-Of-vocabulary)问题的检测和拒绝进行研究,通过使用判别式分析,利用L-Best本地分数和N-best言语假设判别分数,进行言语判别(utterarce verification);该文进行了两组实验,分别针对OOV问题,在小词汇量特定人孤立词识别系统、小词汇量非特定人的孤立词识别系统中进行研究。  相似文献   

13.
14.
蔡铁  朱杰 《计算机工程》2005,31(10):22-24
在自动语音识别系统的实际应用中,词表外(Out-of-Vocabulary,OOV)语音的检测与拒识非常重要,针对语音识别的实时性要求,提出了一种新的基于支持向量机的OOV快速拒识算法,并将其应用于基于DSP实现的孤立词语音识别系统中,实验结果表明,该算法计算简单,实时性好,且效果显著,拒识率达80%以上。通过与传统神经网络方法的比较,证明该算法具有更好的性能和应用潜力。  相似文献   

15.
基于字词联合的中文命名实体识别模型能够兼顾字符级别与词语级别的信息,但受未登录词影响较大且在小规模数据集上存在训练不充分等问题。在现有LR-CNN模型的基础上,提出一种结合知识增强的中文命名实体识别模型,采用相对位置编码的多头注意力机制提高模型上下文信息捕捉能力,通过实体词典融入先验知识降低未登录词的影响并增强模型学习能力。实验结果表明,该模型在保持较快解码速度和较低计算资源占用量的情况下,在MSRA、People Daily、Resume、Weibo数据集上相比SoftLexicon、FLAT等模型F1值均有明显提升,同时具有较强的鲁棒性和泛化能力。  相似文献   

16.
中文分词十年回顾   总被引:56,自引:6,他引:56  
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为: (1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。  相似文献   

17.
杨乐  吴及  吕萍 《计算机工程》2012,38(24):251-253
针对语音关键词检索中的集外词问题,提出基于最大互信息-最小描述长度(MMI-MDL)的子词集构建算法。根据子词对的互信息挑选聚合对,通过MDL准则判断是否聚合成新的子词。使用该子词集把单词映射成子词的组合用于检索。实验结果表明,与已有的MDL子词集构建算法相比,由MMI-MDL方法得到的子词集对检索性能有较大提高,在相同精确率指标下,集外词的召回率相对MDL算法提高12.1%。  相似文献   

18.
未登录词(out of vocabulary,OOV)的查询翻译是影响跨语言信息检索(cross-language information retrieval,CLIR)性能的关键因素之一.它根据维基百科(Wikipedia)的数据结构和语言特性,将译文环境划分为目标存在环境和目标缺失环境.针对目标缺失环境下的译文挖掘难点,它采用频度变化信息和邻接信息实现候选单元抽取,并建立基于频度-距离模型、表层匹配模板和摘要得分模型的混合译文挖掘策略.实验将基于搜索引擎的未登录词挖掘技术作为baseline,并采用TOP1进行评测.实验验证基于维基百科的混合译文挖掘方法可达到0.6822的译文正确率,相对baseline取得6.98%的改进.  相似文献   

19.
针对机器阅读理解任务中的答案问题获取提出一种序列生成模型SGN,首先,SGN在问题矩阵空间获取问题与文章的匹配表示,并参照潜在的问题信息生成当前节点的词向量;然后使用一个选择门结构从文章或者字典中选择当前词汇,并且自发学习和归纳OOV(out-of-vocabulary)单词,解决语义表述不准确的问题;最后使用改进的覆盖机制消除生成序列中的冗余问题,从而提高可读性。实验通过人工数据集SQuAD进行验证,其结果表明,在阅读理解任务上SGN生成的目标序列与基准模型seq2seq相比可读性更加优异,并且与原文语义更贴近。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号