共查询到15条相似文献,搜索用时 125 毫秒
1.
2.
《电子技术与软件工程》2016,(6)
藏语自动分词和藏语动词形态自动识别过程中的一个重要部分,使藏语分词过程中字串的匹配对象。电子词库中每一个词条的准确性直接影响着藏语自动分词结果和藏语动词形态自动识别结果。因此,电子词典中主要收录了所选藏语语料库中的18本藏语(翻译版)教材的5000个词条。 相似文献
3.
一种改进整词二分法的中文分词词典设计 总被引:1,自引:0,他引:1
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率.针对常用的分词方法--正向匹配分词法的特征,在已有整词二分词典的基础上加以改进,设计了一种基于Hash索引、二叉树以及动态一维数组结构的中文分词词典,相对于传统的基于Hash索引的分词词典,减小了词典的空间复杂度,提高了汉语分词的速度,最主要的是改进后的词典在增添新词时比以往的词典更为容易. 相似文献
4.
针对信息自动处理中涉及到的汉语词语切分问题,利用多个成熟的汉语分词技术,采用判定规则为"与"、"或"混合逻辑运算的数据融合方法,构成了一个汉语分词系统并应用于信息自动处理工程中。实际使用表明,判定规则简单有效,分词的正确率达到了99.5%以上。 相似文献
5.
一种基于N-gram模型和机器学习的汉语分词算法 总被引:6,自引:0,他引:6
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。 相似文献
6.
一种新词自动提取方法 总被引:1,自引:0,他引:1
当前网络语料会不断出现大量新词已经成为一种普遍的趋势,这里面包含大量网友创造的新词,以及一些社会热点形成的新词。同时社交网络产生的社交性语料存在大量口语化、简称和随意的表达。这些都对中文分词的准确性造成了困扰。本文提出了一种新词自动提取方法,旨在能准确快速地在特定的语料里提取新词,生成特定领域词典,更准确地对网络语料进行中文分词。通过从语料中提取候选词,计算候选词的支持度和置信度,通过阈值刷选出新词,从而实现从海量文本中准确且快速的提取新词。 相似文献
7.
8.
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。 相似文献
9.
提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果.实验结果表明:此方法通过词性标注的反馈有效提高了分词正确率,词性标注对分词有反馈作用. 相似文献
10.
11.
中文分词技术的研究现状与困难 总被引:2,自引:0,他引:2
中文分词技术是中文信息处理领域的基础研究课题.而分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分.首先对中文分词的基本概念与应用,以及中文分词的基本方法进行了概述.然后分析了分词中存在的两个最大困难.最后指出了中文分词未来的研究方向. 相似文献
12.
讨论了中文信息的智能过滤问题,综合考虑了系统的准确性和智能性,将中文分词技术和贝叶斯推理相结合,并针对目前不良信息的特点,改进了中文分词算法。实验证明此系统对不良信息的智能识别具有很高的准确性。 相似文献
13.
14.
1 IntroductionWord is the starting point for natural language pro-cessing,information retrieving,and machine translation.There is no space or any other physical means to marktheboundaries of words in Chinese.Thus,howto i mprove theaccuracy and efficiency … 相似文献