首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 125 毫秒
1.
0010375一个实用的汉语分词词库自动扩充系统〔刊〕/戴忠健//现代电子工程.—1999,(4).—62~64(L)本文介绍一个实用的微机汉语分词词库自动扩充系统。在进行汉语自动分词的同时,将出现频度较高的新词,扩充刭词库中去。既完成了汉语分词,又生成了电子词典,为中文信息的语音合成技术提供了重要的支持。参2  相似文献   

2.
藏语自动分词和藏语动词形态自动识别过程中的一个重要部分,使藏语分词过程中字串的匹配对象。电子词库中每一个词条的准确性直接影响着藏语自动分词结果和藏语动词形态自动识别结果。因此,电子词典中主要收录了所选藏语语料库中的18本藏语(翻译版)教材的5000个词条。  相似文献   

3.
一种改进整词二分法的中文分词词典设计   总被引:1,自引:0,他引:1  
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率.针对常用的分词方法--正向匹配分词法的特征,在已有整词二分词典的基础上加以改进,设计了一种基于Hash索引、二叉树以及动态一维数组结构的中文分词词典,相对于传统的基于Hash索引的分词词典,减小了词典的空间复杂度,提高了汉语分词的速度,最主要的是改进后的词典在增添新词时比以往的词典更为容易.  相似文献   

4.
针对信息自动处理中涉及到的汉语词语切分问题,利用多个成熟的汉语分词技术,采用判定规则为"与"、"或"混合逻辑运算的数据融合方法,构成了一个汉语分词系统并应用于信息自动处理工程中。实际使用表明,判定规则简单有效,分词的正确率达到了99.5%以上。  相似文献   

5.
一种基于N-gram模型和机器学习的汉语分词算法   总被引:6,自引:0,他引:6  
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。  相似文献   

6.
一种新词自动提取方法   总被引:1,自引:0,他引:1  
当前网络语料会不断出现大量新词已经成为一种普遍的趋势,这里面包含大量网友创造的新词,以及一些社会热点形成的新词。同时社交网络产生的社交性语料存在大量口语化、简称和随意的表达。这些都对中文分词的准确性造成了困扰。本文提出了一种新词自动提取方法,旨在能准确快速地在特定的语料里提取新词,生成特定领域词典,更准确地对网络语料进行中文分词。通过从语料中提取候选词,计算候选词的支持度和置信度,通过阈值刷选出新词,从而实现从海量文本中准确且快速的提取新词。  相似文献   

7.
《现代电子技术》2019,(4):166-170
当前的分词工具分词后会出现很多单字碎片,分词之后意义与原意相差甚远。同时因为新词的构词规则具有自由度大的特点,当前分词方法不能有效识别网络中的新词。在ICTCLAS2016分词系统的基础上,结合新词结构制定规则构建碎片库,利用Bi-gram和Tri-gram模式提取碎片库中的候选字串,再采用左右邻接熵进行扩展及过滤,最后提出基于规则和N-Gram算法的新词识别方法。结果表明使用该方法的分词效果准确率、召回率和F值都有所提高。实验结果表明,该新词识别方法能有效构造候选新词集合,提高中文分词效果。  相似文献   

8.
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。  相似文献   

9.
提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果.实验结果表明:此方法通过词性标注的反馈有效提高了分词正确率,词性标注对分词有反馈作用.  相似文献   

10.
分词是中文自然语言处理的重要基础,新词的不断涌现是分词的最大难题。针对新词识别定义不清、语料缺乏的实际问题,提出了一种以大规模神经网络预训练模型为基础,并结合主动学习和人工规则的新词识别算法。利用预训练模型高效识别候选新词,使用基于不确定性和代表性样本选择的主动学习策略辅助标注新词,利用热度规则、突发性规则和合成性规则识别和过滤新词发现结果。针对新词识别评价标准不一致的问题,给出了一般性准确率和受限制准确率两条规范测试指标。与现有最优算法进行实验对比,所提算法两项指标分别提高了16%和4%。  相似文献   

11.
中文分词技术的研究现状与困难   总被引:2,自引:0,他引:2  
孙铁利  刘延吉 《信息技术》2009,(7):187-189,192
中文分词技术是中文信息处理领域的基础研究课题.而分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分.首先对中文分词的基本概念与应用,以及中文分词的基本方法进行了概述.然后分析了分词中存在的两个最大困难.最后指出了中文分词未来的研究方向.  相似文献   

12.
张家勇  刘建辉 《信息技术》2006,30(12):175-178
讨论了中文信息的智能过滤问题,综合考虑了系统的准确性和智能性,将中文分词技术和贝叶斯推理相结合,并针对目前不良信息的特点,改进了中文分词算法。实验证明此系统对不良信息的智能识别具有很高的准确性。  相似文献   

13.
汉语分词的主要技术及其应用展望   总被引:13,自引:0,他引:13  
分析中文的语义,首先要对句子进行分词.从分词的基本理论出发,讨论了分词的几个主要算法,介绍了现在典型的分词系统,并对发展作了些讨论.  相似文献   

14.
1 IntroductionWord is the starting point for natural language pro-cessing,information retrieving,and machine translation.There is no space or any other physical means to marktheboundaries of words in Chinese.Thus,howto i mprove theaccuracy and efficiency …  相似文献   

15.
中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号