共查询到18条相似文献,搜索用时 78 毫秒
1.
一种改进的中文分词正向最大匹配算法 总被引:1,自引:0,他引:1
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端.针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法.与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法.改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高. 相似文献
2.
3.
中文分词是文本过滤的首要的基础性工作,也是智能化中文信息处理的关键。本文提出了一种结合正向最大匹配法和互信息的中文分词算法。实验结果说明,该算法能在一定程度上提高文本的分类性能。 相似文献
4.
5.
6.
改进的正向最大匹配分词算法 总被引:2,自引:1,他引:1
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块.该方法对待切丈本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理.通过对随机抽取的语料进行测试,结果表明该方法是有效的. 相似文献
7.
从搜索流程的分词和页面排序出发,由于中文分词比较复杂,鉴于正向最大分词算法和逆向最大分词算法的优缺点,提出基于正向最大和逆向最大匹配的双向匹配算法,该算法在一定程度提高了分词的准确性。页面排序也是影响用户搜索效率的一个重要因素,而网页相关度和网页的链接都是直接影响网页权值的重要因素,因而提出一种基于网页相关性的PageRank算法。新的页面排序算法既防治了页面漂移的可能性,也防治了全部依赖网页相关性的排序结果。 相似文献
8.
张玉茹 《电脑与微电子技术》2011,(16):24-26
对当前中文分词算法中的最大匹配算法进行研究,详细分析用该算法的长词优先原则进行分词切分,分析最大匹配算法的分类和用简单的例子阐明算法思想,并同时指出最大匹配算法所存在的缺点,提出优化设想。 相似文献
9.
中文分词算法之最大匹配算法的研究 总被引:2,自引:0,他引:2
对当前中文分词算法中的最大匹配算法进行研究,详细分析用该算法的长词优先原则进行分词切分,分析最大匹配算法的分类和用简单的例子阐明算法思想,并同时指出最大匹配算法所存在的缺点,提出优化设想。 相似文献
10.
做为最直接的分词思路,最大匹配具有直观、实现简单等优点,但也存在着精度低的致命缺点.本文对正向匹配算法做了实现和分析,为该方法的进一步改进打下了基础. 相似文献
11.
字典与统计相结合的中文分词方法 总被引:15,自引:0,他引:15
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DSfenci的分全率达99.52%,准确率达98.52%. 相似文献
12.
13.
14.
Web中文文本分词技术研究 总被引:22,自引:0,他引:22
中文自动分词技术是中文Web信息处理的基础。文中以最大匹配法(MM)为基础,充分考虑上下文(MMC),在内存中采用二分法进行分词匹配,有效地提高了分词的准确率和时效。并给出了评析报告,以及在生成Web文档中的关键词与自动摘要中的应用。 相似文献
15.
16.
17.