首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
基于遗传算法的汉语未登录词识别   总被引:1,自引:0,他引:1  
针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法.该方法扩大了分词碎片容量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中,单字存在"可组合"和"不可组合"两类,采用遗传算法先将分词碎片中的单字词确定下来,然后将其余相邻单字组合,完成未登录词识别.实验结果表明,该方法可有效地解决未登录词识别问题,提高未登录词识别的精确率和召回率.  相似文献   

2.
蔡勇智 《福建电脑》2006,(3):116-117
未登录词识别是中文分词系统的两大难题之一。它时提高中文分词最终的正确率和召回率起着重要的作用。本文提出一种改进的未登录词识别算法,通过统计分析大规模语料库及未登录词词表,对前人的成词规则进行改进.并结合限制性成分时所识别的未登录词进行纠正,得出较准确的未登录词识别结果。该算法是规则和统计相结合并且侧重于规则的识别算法,是中文分词中比较有效的未登录词识别算法之一。  相似文献   

3.
基于论坛语料识别中文未登录词的方法   总被引:1,自引:1,他引:1  
为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法.利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD(由Mutual Information函数和Duplicated Combination Frequency函数构造)对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到词库中.实验结果表明,该方法可以有效提高未登录词的识别效率.  相似文献   

4.
基于WWW的未登录词识别研究   总被引:4,自引:2,他引:4  
一、引言当前,随着国民经济信息化的不断发展以及Internet的普及应用,全世界丰富的信息资源展现在我们每个人面前。如何从大量的信息中迅速有效地提取出所需信息极大地影响着我国计算机技术和信息技术的发展和应用推广。据统计,在信息领域中,80%以上的信息是以语言文字为载体的,因此,中文信息处理技术成为我国重要的计算机应用技术。未登录词的识别是中文信息处理技术中的难点之一。它在Internet数据挖掘、信息检索、图书馆图书文献管理、语音识别等应用中  相似文献   

5.
针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。  相似文献   

6.
基于决策树的汉语未登录词识别   总被引:13,自引:0,他引:13  
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词)和‘分’(分为两单字词)两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识:前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4.5算法生成了决策树。在分词程序已经识别出一定数量的未登录词而仍有分词碎片情况下使用该方法,开放测试的召回率:69.42%,正确率:40.41%。实验结果表明,基于决策树的未登录词识别是一种值得继续探讨的方法。  相似文献   

7.
基于分解与动态规划策略的汉语未登录词识别   总被引:25,自引:6,他引:25  
未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名,中国地名和外国译名进行整体识别为目标,采用分解处理策略降低了整体处理难度,并使用动态规划方法实现了最佳路径的搜索,较好地解决了未登录词之间的冲突问题。通过对真实语料识别的测试,证明该方法可以全面提高未登录词识别的正确率和召回率。  相似文献   

8.
为提高各行业领域未登录词识别效果,提出一种基于扩展规则与统计特征的未登录词识别方法。分析行业领域未登录词构词特点,制定扩展规则,根据扩展规则对分词项进行扩展得到复合词,通过词频、互信息、邻接熵等统计特征判别复合词是否为未登录词。若为未登录词,则对其继续扩展和识别。六个行业领域和通用领域未登录词识别实验结果表明,提出方法取得了较好的未登录词识别效果,具有较好的移植性。  相似文献   

9.
由于GIS中文查询语句的理解是为了构造查询语句,而不同的应用系统其语料库的内容和结构有其特殊性,并且语料库也不可能穷尽所有的查询语句用词,所以本文提出了基于系统语料库的GIS中文查询语句的未登录词识别算法的研究。将识别出来的未登录词通过人机交互的方式加入语料库,使所输入的查询语句的分词有自动记忆的功能,测试
结果显示,此算法正确有效,为GIS中文查询语句的正确理解奠定了基础。  相似文献   

10.
未登录词的识别是中文分词要面对的数个难题之一,解决好了这个问题就能够有力提升中文分词的效率.对此,文中简要介绍了专业搜索引擎的概况,并具体分析了对电影名进行中文分词的特点和介绍了传统的未登录词的识别策略,最后在此基础上提出了一种电影名未登录词的识别策略并简要分析了这种策略未来的优化方向.  相似文献   

11.
为了解决多传感器目标识别中不同等级信息源数据的融合问题,在研究DSmT证据理论的基础上,引入证据可信度矩阵.依据可信度矩阵对证据进行转化,使之可以用传统的方法进行证据融合.将这种方法应用到等级不同的多传感器目标识别中,可以解决传统证据理论只能进行相同等级传感器目标识别的难题.仿真实验表明,该方法提高了目标识别的准确性和有效性.  相似文献   

12.
目标噪声特征提取和目标分类器设计是被动声纳目标识别系统的关键技术.本文针对被动声纳目标识别,提出了一种新的调制连续谱特征提取方法.此外,为训练神经网络目标分类器,本文将遗传算法和BP算法相结合,提出了一种新的自适应遗传BP算法.最后,对海上实录的三类目标噪声进行了分类识别,实验结果表明本文设计的被动声纳目标识别系统具有很好的分类效果.  相似文献   

13.
微博作为舆情分析中基础数据的主要来源之一,如何对其进行有效提取是数据获取的关键问题。为此,提出一种基于用户影响力的数据提取算法,以满足舆情系统对数据的需求。该算法首先利用模拟登录技术获取用户关系并依此构建用户网络,再根据自主设计的用户影响力计算方法计算出影响力,进而建立符合微博特征的影响力最大化模型挖掘出最具传播能力的k个节点,最后爬取相应的微博数据。实验证明,该算法能够有效提高获取数据的质量,为舆情分析提供更好的数据支持。  相似文献   

14.
评价对象是指某段评论中评价词语所修饰的对象或对象的属性。为了识别评论中的评价对象,提出基于Co-training的训练CRF模型方法。该方法首先人工标注少量的原始数据集,使用Co-training方式对未标注数据进行自动识别,以扩大已标注训练数据。通过原始标注数据集和Co-training方式标注数据集,训练CRF模型。在汽车领域中,对待标注汽车评论语料中评价对象识别的精确率为67.483%,召回率为67.832%。  相似文献   

15.
一种基于字词结合的汉字识别上下文处理新方法   总被引:6,自引:0,他引:6  
根据字、词信息之间的互补性,提出一种字、词结合的上下文处理方法.在单字识别的基础上,首先利用前向一后向搜索算法在较大的候选集上进行基于字bigram模型的上下文处理,在提高文本识别率的同时可提高候选集的效率;然后在较小的候选集上进行基于词bigram模型的上下文处理.该方法在兼顾处理速度的同时,可有效地提高文本识别率.脱机手写体汉字文本(约6.6万字)识别中的实验表明:经字bigram模型处理,文本识别率由处理前的81.58%提高至94.50%,文本前10选累计正确率由94.33%提高到98.25%;再经词bigram模型处理,文本识别率进一步提高至95.75%。  相似文献   

16.
中文微博命名实体的有效识别对使用微博进行社会舆论监测具有重要意义。鉴于微博更新速度快、语言不规范、噪声多,使得命名实体识别成本高、识别效率低。针对这些问题,提出基于众包标注的中文微博命名实体识别的方法。对众包工作者的能力进行评估,使用最大期望算法(EM算法)对评估后的能力值进行分析学习,过滤掉每个标注者的噪声并对众包标注的结果进行优化,从而确定最后的命名实体。实验结果表明,该方法能够有效地提高中文微博中命名实体识别的准确率。  相似文献   

17.
提出一种基于分类特征提取的手部动作识别方法,该方法通过自适应的混合高斯模型构建背景模型,使用背景减除法并充分利用人体手部肤色信息分割出人体手部区域,结合手部关节、骨骼特征及肤色信息估算手部关节点位置,构建三维手部骨架模型,然后提取手部各关节角度、位置信息并利用隐马尔柯夫(HMM)模型对其所表示的动作进行训练识别。  相似文献   

18.
快速、精准的目标检测方法是计算机视觉领域的研究热点之一,目前通用的目标检测模型主要包括两个部分,候选区域提取和分类器设计。基于卷积神经网络CNN和超像素算法提出了一种新型面向微小目标的检测方法。首先对目标图像进行超像素过分割,然后提取过分割区域的特征并以此进行区域合并,最后提取候选区域。与传统建议区域提取方法相比,本方法能够在保证召回率的前提下大量减少候选区域的数量。为了克服小目标特征提取的困难,本算法利用多尺度和多层次CNN提取候选区域的中高层语义信息进行目标分类。通过对车辆年检标示数据的实验表明提出的基于超像素过分割候选区域提取算法具有较高的召回率,在同等候选区域数量的情况下与Edge Box、Bing、Selective search等方法相比分别提高2%、2.4%和3.5%,同时基于多层次多尺度的目标分类算法能有效降低误检率,提高检测率。  相似文献   

19.
一个基于产生式系统的花稿轮廓识别方法   总被引:1,自引:0,他引:1  
提出了一个基于产生式系统的花稿轮廓识别方法,结合知识表达,模式分类等有关原理,详细阐述了花稿轮廓识别的具体实现方法,并给出了解决匹配干扰问题的方法,最后命同了结论并作了进一步的讨论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号