首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
基于无指导学习策略的无词表条件下的汉语自动分词   总被引:16,自引:0,他引:16  
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法,以期对研制开放环境下健壮的分词系统有所裨益,全部分词知识源自从生语料库中自动获得的汉字Bigram.在字间互信息和t-测试差的基础上,提出了一种将两者线性叠加的新的统计量md,并引入了峰和谷的概念,进而设计了相应的分词算法,大规模开放测试结果显示,该算法关于字间位置的分词正确率为85.88%,较单独使用互信息或t-测试差分别提高了2.47%和5.66%。  相似文献   

2.
中文分词是文本过滤的首要的基础性工作,也是智能化中文信息处理的关键。本文提出了一种结合正向最大匹配法和互信息的中文分词算法。实验结果说明,该算法能在一定程度上提高文本的分类性能。  相似文献   

3.
字典与统计相结合的中文分词方法   总被引:15,自引:0,他引:15  
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DSfenci的分全率达99.52%,准确率达98.52%.  相似文献   

4.
为能在缺乏粤语分词语料的情况下进行粤语研究,提出一种基于无监督与有监督结合的粤语分词方法。利用多源语料完成粤语词库的构建;利用二元字典与粤语词库对初步结果进行初筛分词和二次分词;利用DAG对粤语通用句式切分错误进行分析并修正;将修正后的粤语分词语料利用深度学习模型固化分词效果,得到基于Bert-BiLSTM-CRF三层架构的分词模型。实验结果表明,该方法能有效克服预分词语料的缺失问题,在无需大量分词语料的情况下,F值达到74.3%。  相似文献   

5.
中文分词技术目前存在的一个问题是针对特定领域未登录词识别效率较低的问题.建筑类文本分词由于受到专业本身词语的特点等限制,分词时对未登录词的识别效果不太好.提出一种非监督的基于改进算法与邻接熵结合的方法来进行未登录词的识别.首先通过算法对文本间相互依赖值比较大的字串进行识别,然后通过停用词表和语料库进行筛选过滤得到候选词典,计算候选词典之间的邻接熵,设定阈值确定最后的未登录词,最后将识别的未登录词作为加入到专业词典进行分词.通过实验证明建筑领域文本在使用提出的算法时对于未登录词有较好的识别效果,准确率较算法提高了15.92%,召回率提高了7.61%,因此最终的分词效果在准确率和召回率分别可达到82.15%、80.45%.  相似文献   

6.
首先说明了分词在中文信息处理中的作用,然后介绍了分词系统中的关键技术。提出了一种基于有向图的中文分词算法,该算法首先构造中文分词有向图,然后计算中文分词有向图中所有可能的切分路径,最后利用了最少分词原则、汉字之间的互信息和词语的频率等信息给中文分词有向图中的每条切分路径打分,分数最高的路径就对应正确的切分结果。开放测试结果表明分词精确率可达90%以上。  相似文献   

7.
中文分词是白然语言处理的前提和基础,利用基于字分类的方法实现中文分词,就是将中文分词想象成字分类的过程.把字放入向前向后相邻两个字这样的一个语境下根据互信息统计将字分成四种类别,即跟它前面结合的字,跟它后面结合的字,跟它前后结合的字,独立的字.在分词的过程中采用了t-测试算法,一定程度上解决了歧义问题.以人民日报为语料库进行训练和测试,实验结果表明,该方法能够很好地处理歧义问题,分词的正确率达到了90.3%,有了明显的提高.  相似文献   

8.
基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。  相似文献   

9.
本文详细介绍SVM(支持向量机)在词频统计中文分词中的应用。可将输入的连续字串进行分词处理,输出分割后的汉语词串,一般为二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。选用了互信息原理进行统计。并采用SVM算法,分词的准确性与传统相比有了很大的提高,并具有一定的稳定性。  相似文献   

10.
一种消除中文分词中交集型歧义的方法   总被引:1,自引:0,他引:1  
切分速度和精度是中文分词系统的两个主要性能指标.针对传统的中文分词中出现的分词速度慢和分词精度不高的问题,采用了双层hash结构的词典机制来提升分词的速度,对于匹配结果中出现的交集型歧义字段,通过互信息的方法来消除,以提高分词精度.并对该分词系统进行了实现.通过与传统的中文分词系统的分词速度以及分词效果的对比,发现该系统在分词速度和精度上都有所进步,从而取得较好的分词效果.  相似文献   

11.
传统的阈值分割算法只考虑到图像的灰度信息,而忽略了灰度的空间分布以及分割后图像与原图像之间的关系。本文从分割图像与原图像的内在联系出发,提出了一种新的基于FCM算法与互信息量技术相结合的分割算法,即FCM-MI算法。首先利用FCM算法确定全局阈值作为初值,以互信息量为目标函数,在小范围内计算分割图像与原图像的互信息量,互互信息量达到最大时的阈值即为最优值。对大量医学图像和车牌图像进行的实验结果表明,本算法所得到的目标图像的边界特征保持完好,虚假目标信息大大降低,图像边界细腻、连续且定位性能好。  相似文献   

12.
基于最大互信息量的图像自动优化分割   总被引:3,自引:0,他引:3       下载免费PDF全文
由于传统的阈值分割算法只考虑到图像的灰度信息,而忽略了灰度的空间分布以及分割后图像与原图像之间的关系,因而分割效果不好。为了提高分割效果,从分割图像与原图像的内在联系出发,提出了一种新的基于K均值算法与互信息量(mutual information,MI)技术相结合的分割算法。新算法首先利用K均值算法确定全局阈值作为初值;然后以互信息量为目标函数,在小范围内计算分割图像与原图像的互信息量,互信息量达到最大时的阈值即为最优值。这是将图像配准方法用于分割的一种创新性尝试。通过对大量医学图像以及汽车牌照图像进行的实验结果表明,该新算法所得到的目标图像的边界特征保持完好,不仅虚假目标信息大大降低,而且图像边界细腻、连续,且定位性能好。  相似文献   

13.
基于互信息量的图像分割   总被引:24,自引:1,他引:24  
图像分割是图像信息处理的热点和难点之一,常用的分割方法有阈值法和聚类法等.模糊C均值(FCM)算法因其实现简单、结果较优而得到广泛应用,但FCM算法存在过分依赖初值、收敛于局部极值和需预先给定分类类数等问题.研究者们对此进行了大量研究和改进,但均无法彻底解决上述问题,基于模拟退火算法和互信息量,以最大互信息量为优化目标,文中提出了一种新的分类类数判据一互信息熵差,并在此基础上构造了一种新的阈值分割算法——最大互信息量分割算法(MMS),实验结果表明,MMS克服了FCM算法的上述不足.更为重要的是,作为一种一般性的分类算法,MMS算法如同FCM一样,可以应用到图像分割以外的更广阔的领域,如经济学、运筹学、模式识别等.  相似文献   

14.
基于词频统计的中文分词的研究   总被引:20,自引:1,他引:20  
论文介绍了一个基于词频统计的中文分词系统的设计和实现。通过这个系统,可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。这个系统选用了三种统计原理分别进行统计:互信息,N元统计模型和t-测试。文中还对这三种原理的处理结果进行了比较,以分析各种统计原理的统计特点,以及各自所适合的应用场合。  相似文献   

15.
面向信息检索的自适应中文分词系统   总被引:16,自引:0,他引:16  
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.  相似文献   

16.
首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述.接着论述了EM算法用于训练分词语言模型的可能性和局限性,为了解决EM算法严重依赖初始化条件的问题,用无监督训练方法建立概率模型,有效地解决了基于EM算法中文分词时可能存在的局部极值问题,提高分词精度.  相似文献   

17.
基于互信息的无监督特征选择   总被引:5,自引:0,他引:5  
在数据分析中,特征选择可以用来降低特征的冗余,提高分析结果的可理解性和发现高维数据中隐藏的结构.提出了一种基于互信息的无监督的特征选择方法(UFS-MI),在UFS-MI中,使用了一种综合考虑了相关度和冗余度的特征选择标准UmRMR(无监督最小冗余最大相关)来评价特征的重要性.相关度和冗余度分别使用互信息来度量特征与潜在类别变量之间的依赖和特征与特征之间的依赖.UFS-MI同时适用于数值型和非数值型特征.在理论上证明了UFS-MI的有效性,实验结果也表明UFS-MI可以达到与传统的特征选择方法相当甚至更好的性能.  相似文献   

18.
在计算机视觉领域,尺度空间扮演着一个很重要的角色。多尺度图像分析的基础是自动尺度选择,但它 的性能非常主观和依赖于经验。基于互信息的度量准则,文章提出了一种自动选取最优尺度的模型。首先,研究 专注于基于形态学算子的多尺度图像平滑去噪方法,这种技术不需要噪声方差的先验知识,可以有效地消除照度 的变化。其次,通过递归修剪 Huffman 编码树,设计了一个基于聚类的无监督图像分割算法。一个特定的聚类数 从信息理论的角度来看,提出的聚类算法可以保留最大的信息量。最后,用一系列的实验对算法的性能进行了验证, 并从数学上进行了详细的证明和分析,实验结果表明本文提出的算法能获得最优尺度的图像平滑和分割性能 。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号