首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
强永妍  杨庚 《计算机应用》2007,27(9):2334-2336
为了提高中文垃圾邮件预处理阶段的性能,加快查找分词的速度,基于哈希函数的算法思想创造性的构造了索引词典,设计了一种针对中文垃圾邮件的中文索引分词方法。通过实验,表明该方法提高了传统机械分词法的效率和准确率,改善了邮件预处理阶段的性能,并且可以广泛地应用于中文分词领域。  相似文献   

2.
对信息检索系统中常用的两种分词方法,即词表分词法和二元分词法,进行了分析比较。针对二元分词的分词结果冗余度大的问题,提出了改进方法,即经过预处理的二元分词方法。  相似文献   

3.
对汉语的特点和分词概念作了简单介绍,详细说明了常用的分词算法,在此基础上,提出了一种改进的Ⅲ中文分词算法。该算法兼顾了最大正向匹配法(MM)和逆向最大匹配法(RMM)的优点,克服他们的不足,使得切分准确率和分词效率均有明显的提高,是一种比较实用的分词算法。实验也进一步证明,该算法能有效地提高切分准确率和分词效率。  相似文献   

4.
分词标注是中文信息处理的基础。传统方法的处理步骤大都是首先对文本进行预处理,得到文本的粗分模型,在此基础上对词语进行词性标注。粗分模型集合的大小取决于采用的分词方法,粗分模型的准确性直接影响着后续处理结果的准确性。提出一种基于统计的分词标注一体化方法即概率全切分标注模型,该方法的特点是将分词、标注两部分工作融为一体同时进行,在利用全切分获得所有可能分词结果的过程中,计算出每种词串的联合概率,同时利用马尔可夫模型计算出每种词串所有可能标记序列的概率,由此得到最可能的处理结果。该方法提高了结果的召回率和准确率  相似文献   

5.
Web中文文本分词技术研究   总被引:22,自引:0,他引:22  
马玉春  宋瀚涛 《计算机应用》2004,24(4):134-135,155
中文自动分词技术是中文Web信息处理的基础。文中以最大匹配法(MM)为基础,充分考虑上下文(MMC),在内存中采用二分法进行分词匹配,有效地提高了分词的准确率和时效。并给出了评析报告,以及在生成Web文档中的关键词与自动摘要中的应用。  相似文献   

6.
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进的无词典分词方法进行二次分词,结合TFIDF,开方检验,信息增益及词汇位置权重方法进行特征项抽取。实验结果表明,该方法能实现特征项自动化抽取,且准确性较高  相似文献   

7.
针对当前自然语言处理中中文分词基于词典的机械分词方法,正序词典不能作为逆向最大匹配分词词典以及反序词典维护困难的问题,提出一种新的词典构造方法并设计了相应的双向最大匹配算法,同时在算法中加入了互信息歧义处理模块来处理分词中出现的交集型歧义。该算法可以在分词的过程中显著提高分词的精确度,适用于对词语切分精度要求较高的中文语言处理系统。  相似文献   

8.
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法,结合中文分词过程,在自动进行中文分词的结果之上,自动提取文本中特定出现频率以上的高频词条,将这些词条作为辅助翻译预处理阶段任务分配的重要依据,从而有效提高了辅助翻译平台预处理过程中的任务分配效率及任务分配准确率。  相似文献   

9.
基于Hash结构的机械统计分词系统研究   总被引:3,自引:1,他引:3  
在综合比较了常用的机械分词方法和统计分词方法基础上,论文设计并实现了一种基于Hash结构的机械统计分词系统。系统突破了传统的机械分词方法和统计分词方法,结合了两者的优势,并对其做了一系列的改进。从对测试结果的分析可以看出,系统的分词速度达到了每秒一万两千个汉字以上,且具有较强的未登陆词识别能力。  相似文献   

10.
词典是汉语机械分词的一个重要组成部分,分词词典机制的优劣直接影响到中文分词的速度和效率。在分析了几种典型的词典机制优缺点的基础上,提出一种基于memcached的动态四字双向词典机制。该词典机制有效减少了文章分词过程中对词典的访问次数,同时具有维护方便及快速添加和删除临时词等优点,适合在Web上采用双向最大匹配算法进行中文分词。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号