首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
对信息检索系统中常用的两种分词方法,即词表分词法和二元分词法,进行了分析比较。针对二元分词的分词结果冗余度大的问题,提出了改进方法,即经过预处理的二元分词方法。  相似文献   

2.
葛锐 《软件》2013,34(3)
汉语分词,就是将中文语句中的词汇切分出来的过程.分词技术作为中文信息处理的基础环节,它的解决是计算机自然语言理解、人工智能、信息检索、机器翻译等领域突破的关键.因此,开发出一个高精度的汉语分词系统对于中文信息处理显得非常重要.本文讨论了中文分词的概念、目标及其所面临的一些基本问题,并详细介绍了我以自己的认识为基础设计的分词词典以及分词算法.  相似文献   

3.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。  相似文献   

4.
中文信息检索引擎中的分词与检索技术   总被引:32,自引:2,他引:32  
吴栋  滕育平 《计算机应用》2004,24(7):128-131
文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。  相似文献   

5.
分词识别和歧义消除是影响信息检索系统准确度的重要因素,该文提出了一种基于语法和语义的使用约束矩阵的中文分词算法。该算法建立在语法和句法的基础上,从语境角度分析歧义字段,提高分词准确率。系统可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,并得到一个词典。再用《现代汉语语法信息词典》进行处理,实验结果显示分词准确率能提高10%左右。  相似文献   

6.
中文分词算法在搜索引擎应用中有着广泛的应用空间,且能够增加信息检索的准确性,故而值得予以推广。在此之上,本文简要分析了中文分词算法的作用与中文分词算法在搜索引擎中的难点,并分别从基于字符串匹配分词、基于N元语法分词、基于搜索统计技术等方面,论述了中文分词算法在搜索引擎应用中的运用策略,以此提高大众对中文分词算法的认知水平。  相似文献   

7.
Nutch是一个开源的搜索引擎,它在中文分词的效率和准确度上不能满足实际需要。本文对Nutch中的原分词方法进行修改,提高了信息检索的效率,并与其他两种Nutch中文分词方法进行比较,可以直观看地出分词效果有显著的改善。  相似文献   

8.
中文分词技术是机器翻译、分类、搜索引擎以及信息检索的基础,但是,互联网上不断出现的新词严重影响了分词的性能,为了提高新词的识别率,建立待分词内容的后缀数组,然后计算其公共前缀共同出现的次数,采用阈值对其进行过滤筛选出候选词语,实验结果表明,该方法在新词识别方面有一定的优势。  相似文献   

9.
中文信息处理中自动分词技术的研究与展望   总被引:22,自引:0,他引:22  
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。  相似文献   

10.
梁喜涛  顾磊 《微机发展》2015,(2):175-180
分词和词性标注是中文语言处理的重要技术,广泛应用于语义理解、机器翻译、信息检索等领域。在搜集整理当前分词和词性标注研究与应用成果的基础上,对中文分词和词性标注的基本方法进行了分类和探讨。首先在分词方面,对基于词典的和基于统计的方法进行了详细介绍,并且列了三届分词竞赛的结果;其次在词性标注方面,分别对基于规则的方法和基于统计的方法进行了阐述;接下来介绍了中文分词和词性标注一体化模型相关方法。此外还分析了各种分词和词性标注方法的优点和不足,在此基础上,为中文分词和词性标注的进一步发展提供了建议。  相似文献   

11.
一种规则与统计相结合的汉语分词方法   总被引:20,自引:2,他引:18  
汉语自动分词是中文信息处理领域的一项基础性课题,对现有的汉语分词方法作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。  相似文献   

12.
数据库汉语查询语言的分词研究与实现   总被引:3,自引:2,他引:3  
在综合考虑数据库查询这一特殊性的基础上,根据查询语句中词汇对数据查询不同贡献程度分级建立分词词典;然后提出了分步- - 正向单扫描的分词方法(DSWS) ,并对该分词方法的时间复杂度进行了分析。  相似文献   

13.
中文自动分词是计算机中文信息处理中的难题.介绍一种基于数据驱动的中文分词方法,开发了基于该方法的分词系统,此系统在北大<人民日报>标注语料库中进行封闭测试,取得较好的效果.系统包含了一个新词识别器、一个基本分词算法和实现单字构词、词缀构词以及一致性检验的程序.  相似文献   

14.
语句拼音-汉字转换的智能处理机制分析   总被引:4,自引:4,他引:4  
语句拼音- 汉字转换是中文信息处理研究的一个重要方面,是键盘汉字输入和语音输入的核心技术,其主要特征是对动态输入的拼音串进行词法分析,给出所有可能的汉语句子,然后对这些汉语句子根据上下文环境进行句法分析和语义分析,动态调整句子中的字词,输出最佳结果。近年来,语句拼音- 汉字转换系统大量应用了人工智能技术和机器翻译的理论,以期提高系统转换的准确率和增强系统的智能处理功能。本文分析了语句拼音- 汉字转换系统所采用的核心技术,即知识支持、自动分词和动态调整等,讨论了语句拼音- 汉字转换的处理方法和过程,知识库的组成结构,用于拼音串自动分词的算法和实现,音字转换中动态调整的概率模型等,本文还分析了现有语句拼音- 汉字转换系统在拼音串自动分词和音字转换的动态调整中发生错误的原因,并提出了改进方法。  相似文献   

15.
This paper proposes an algorithm that can remove a large number of redundancy samples in a task of using SVM for Chinese word segmentation, and it will not drop much of the final experimental performance. This can ease the training of Chinese word segmentation to a certain extent. This algorithm is fast and needs no extra cost, Both theoretical analysis and experiments show that this algorithm works better, it removes almost 45% of the redundancy samples and the precision ration of our Chinese word segmentation drops less than 3%.  相似文献   

16.
随着汉语日益走向世界以及语音技术的发展,让计算机能讲汉语便自然成为了一种需求。介绍了一种汉语文语转换(TTS:Text—To—Speech),引擎SmartTalk的设计与实现。讨论了用于TTS的汉语语音库和汉语词库的设计,以及基于词库的分词算法和基于音库的语音合成。  相似文献   

17.
该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数据集上进行比较分析,最终实验结果表明分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置。最后该文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比, 该融合模型均取得了最好的结果。  相似文献   

18.
罗浩  魏祖宽  金在弘 《计算机应用》2010,30(7):1941-1943
提出了一种面向地理信息系统领域的基于专有名词优先的中文分词方法:利用专业词典、通用词典和同义词词典相结合的词典机制,优先切分专有名词,对粗分结果利用Trigram模型进行消歧而获取最终结果。实验证明,该分词算法对专业文献的分词处理具有较好速度和准确性。  相似文献   

19.
在正向最大匹配法的基础上,提出了一种便于在网络搜索引擎上使用的消除歧义的方法.通过利用单字词和二字词的高频特性以及不同词条的词频特点,再加上长词优先的原则,来消除在分词中可能会出现的交集型歧义和组合型歧义.实验结果表明:改进的回溯算法,比最大正向匹配法和回溯法的消歧更加有效.对高频交集型歧义字段取样分析结果表明,改进的...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号