首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
该文介绍了彝文自动分词的技术.首先阐述了研究彝文自动分词的必要性和重要意义,然后介绍了彝文分词规范的原则及词表,讨论了彝文分词的算法,最后根据彝文的特性,设计了基于Java语言的彝文自动分词软件并得出了良好的分词结果.  相似文献   

2.
彝文作为少数民族语言之一,词与词之间没有明显的分界符,并且不同词之间的组合也比较复杂。由于彝文标注数据较少且难以获取,而彝文的词典文献资料较多,设计了借助自建词表的深度学习模型对彝文进行分词。首先将文本转换成向量形式,利用BILISTM获取向量的序列信息,在将BILSTM得到的向量传入CRF层之前需要加入词表中每个字所在词的相关词向量信息,最后送入CRF层得到预测结果,在自建的数据集上得到了良好的分词效果。  相似文献   

3.
本文通过对中文网页采集流程、网络爬虫工作基本原理的分析,再结合彝文网页的特点,对彝文网页信息的采集技术进行了研究,通过聚焦网络爬虫来实现彝文网页信息的采集,并依此来建立一个内容全面的彝文网页信息资源库。  相似文献   

4.
文本自动分类关键技术研究   总被引:1,自引:0,他引:1  
为了提高文本自动分类的准确率,本文在分析文本分类预处理阶段的中文分词、特征提取、向量空间模型、web结构挖掘技术等基础上,对相关技术进行了的改进,并设计基于支持向量机文本分类器(UJS-Classifier)实现了最终的文本分类.根据测试语料分别对中文分词模块和网页文本分类模块性能进行测试,实验结果表明UJS-Classifier在分词的歧义切分、网页分类的性能及准确率都有一定的提高.  相似文献   

5.
汉盲翻译是把汉字源文本自动翻译为对应的盲文文本,目前存在着多音字混淆、未登录词不能增加、不符合盲文分词连写规则等挑战.构建一个基于逆向最大匹配分词算法的汉盲翻译系统,能够较好识别多音字,自主添加未登录词,得到较正确的分词连写结果,有效提高了汉盲翻译的准确率.该系统基于词库可以区分出大多数多音字,能够得到较符合盲文分词连写规则的分词结果,并可向词库自主添加未登录词,进而提高中文分词的准确率.实验结果表明该系统能够降低因中文分词错误引起的语句歧义,减少因多音字混淆引起的翻译错误,避免因音节结构分散导致的盲文方数繁多,具有一定的开放性和实用性.  相似文献   

6.
基于统计分词的中文网页分类   总被引:9,自引:3,他引:9  
本文将基于统计的二元分词方法应用于中文网页分类,实现了在事先没有词表的情况下通过统计构造二字词词表,从而根据网页中的文本进行分词,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别,新词不断出现,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明,在统计阈值选择合适的时候,通过构建的词表进行分词进而进行网页分类,能有效地提高网页分类的分类精度。此外,本文还分析了单字和分词对于文本分类的不同影响及其原因。  相似文献   

7.
以中医方剂药物组成信息提取为背景,描述了突破中医药信息化过程中非结构化数据制约的一种方法,介绍了文本信息提取的主要技术步骤.所提出的信息提取框架涵盖了个性化中药词库建立、页面方剂信息定位、方剂组成文本分割、以及药物组成信息提取等.方剂信息的提取以基于正则表达式为主,同时考虑了中医药书籍的特殊性.组成文本分词采用了NPOS最短路径分词算法,提取药物时针对中医方剂中名词、量词、动词的特殊情况做了相应处理.实验表明,该方法能得到较高的提取正确率.  相似文献   

8.
目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想,且国内的中文医学术语标准化进程不足。针对此问题,提出一种基于统计信息对镜检文本数据进行结构化处理的方法。该方法以聚类文本为基础,基于断点词与重合串分词,利用分词词串的统计信息获取关键词以及词语类别信息,并进行词语扩充,从而得到最终词库作为字典。利用基于字典的双向最大匹配分词算法,对文本数据进行分词,并通过添加否定检出的规则,获取结构化数据。实验结果表明,该方法获取的医学词库的准确率达到了80%,实现了不依赖分词工具获得结构化数据的功能。  相似文献   

9.
基于Web文本挖掘中的一种中文分词算法研究   总被引:1,自引:0,他引:1  
基于Web文本挖掘问题,提出了一种改进的索引结构的词库组织体系及基于该词典结构的中文分词算法。同时,加强消除歧义方面的处理,分词精度有所提高。试验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。  相似文献   

10.
海量中文信息处理是大数据处理的一个分支,而利用大数据技术进行中文信息处理一定离不开中文分词,所以中文分词技术是大数据中文信息处理的基础性技术.中文分词技术自本世纪以来,一直在性能与精确度两个方向在推进;在性能方面主要以改进分词扫瞄算法,改进词库存储技术与查询方式来提高性能.在精确度上主要是对未登录词与歧义词的甄别与处理方法进行改进.本文摒弃了通过词库索引查询的思想,提出一种基于字符树的词库存储结构.它的分词速度是普通折半法的35倍,占用内存只是它的1/5.它将为大数据技术在处理中文信息时在性能上推进了一大步.  相似文献   

11.
一种基于语境的中文分词方法研究   总被引:4,自引:0,他引:4  
汉语不同于英语,词之间没有间隔标记.而汉语分词是文本分析的第一步,且存在歧义切分,因此分词问题成为汉语分析的首要难题,通过中文切分过程的本质分析,推导并提出基于马尔可夫链的语境中文切分理论.进而提出一种语境中文分词方法.该方法建立在词法和句法基础上,从语境角度分析歧义字段,提高分词准确率.  相似文献   

12.
汉语自动分词方法   总被引:26,自引:0,他引:26       下载免费PDF全文
本文给出了为汉语自动分词而提出了机械匹配法,特征词库法,约束矩法,语法2分析法和理解切法。  相似文献   

13.
一种改进的快速分词算法   总被引:38,自引:0,他引:38  
首先介绍了一种高效的中电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度;然后提出了一种改进的快速分词算法,在快速查找两字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效率.理论分析表明,该分词算法的时间复杂度为1.66,在速度方面,优于目前所见的同类算法。  相似文献   

14.
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。  相似文献   

15.
在中文自然语言处理领域中,分词是非常重要的步骤之一,它是关键词抽取、文本自动摘要、文本聚类的基础,分词结果的好坏直接影响进一步文本处理的准确性.近年来随着微博平台、直播平台、朋友圈等自由舆情平台的兴起,大量不规范使用的舆情文本尤其是不断出现的新词给分词结果的准确性带来了巨大的挑战,新词发现成为分词算法必须解决的问题.为解决在新词发现过程中,新词整体数据体量小、新词用法灵活以及过度合并词语易形成短语块等问题,本文提出了结合关联置信度与结巴分词的新词发现算法,该算法以结巴分词的初步分词结果为基础,通过计算词语与其左右邻接词集中各个词语之间的关联置信度,将被错误拆分的词语合并成候选新词,并通过切分连接词以防止多个词语被连接成短语的情况出现.以微博言论数据进行测试的实验表明,相比于其它基于置信度的分词方法结果,本文提出的算法可以大幅度提升发现新词尤其是命名实体、网络用语的准确率,在确保新词语义完整的前提下降低新词长度,并且在少量测试语料的情境下,本文提出的算法对低频新词依然具有识别能力.  相似文献   

16.
在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。本文研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础之上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料上进行实验。该分词方法显著提高了最大匹配分词方法的分词效果,同时也优于当前最好的无监督分词结果。实验表明,该方法快速、有效,利用较小的资源获得了较好的分词效果。  相似文献   

17.
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。  相似文献   

18.
老挝语是一种无空格切分的字母语言,在进行自然语言处理工作时需要首先进行分词处理。现有分词算法主要为首先使用规则进行音节切分,然后根据音节切分结果进行老挝语分词,存在错误传递等问题。该文提出一种基于神经网络的端到端老挝语分词方法,基于多任务联合学习思想,将老挝语音节切分与分词工作进行结合,实现了基于双向长短时记忆循环神经网络(BiLSTM)的端到端老挝语分词模型。实验表明,端到端的老挝语分词模型准确率达到89.02%,较以往分词模型有所提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号