首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 252 毫秒
1.
在比较各种传统分词方法优缺点的基础上,本文提出了一种新的分词算法。它采用改进的双向Markov链统计方法对词库进行更新,再利用基于词典的有穷自动机后串最大匹配算法以及博弈树搜索算法进行分词。实验结果表明,该分词算法在分词准确性、效率以及生词辨识上取得了良好的效果。  相似文献   

2.
邹嵩  赵诗阳  周新志 《微机发展》2012,(2):131-133,137
为了提高垂直搜索引擎的检索效率,介绍了垂直搜索引擎中的分词技术。文中主要通过研究最大长度匹配算法,提出了改进后的最大长度匹配算法以提高检索效率。改进后的算法显示,分词效果得到了一定的提升,体现了相对于普通最大长度匹配算法的优势。且通过将改进后的方法与普通最大长度匹配算法相比较可知,改进后的算法提高了搜索的正确率,提升了检索的效率,是一种对最大长度匹配算法的有效改进,由此也体现了搜索引擎中算法合理设计可以提升搜索性能。  相似文献   

3.
针对目前最常用的分词算法——最大匹配算法效率低,长度受限等缺点,在对中文编码体系和中文分词的算法进行研究的基础上,提出了一种新的词库数据结构。它支持首字Hash和标准二分查找,而且不限制词条的长度。然后介绍了基于该词库设计的一种快速的分词算法,并给出了算法的实现过程。  相似文献   

4.
面向搜索引擎Lucene的中文分析器   总被引:1,自引:0,他引:1       下载免费PDF全文
针对目前应用于搜索引擎Lucene的中文分析器的分词不符合汉语习惯的现状,根据正向最大匹配切分算法和采用包括基本标准中文词语的词库,实现了自己的分析器。该分析器的分词结果更符合汉语的习惯,并且在分词、建立索引等方面的性能非常接近基于机械分词的分析器,另外在检索速度方面性能提升了2~4倍,在检索召回率方面性能提升了59%。  相似文献   

5.
基于Hash结构的逆向最大匹配分词算法的改进   总被引:8,自引:1,他引:7  
分析中文的语义,首先要对句子进行分词.中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果.对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM).该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义.实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高.  相似文献   

6.
采用最大匹配算法对高棉语进行分词准确率较低,且难以正确识别词库中没有的新词。针对该问题,采用改进的Viterbi算法,利用自动机实现音节切分,通过最优选择及剪枝操作提高分词效率,以统计语言模型对未知新词进行数据平滑,提高识别正确率。实验结果表明,改进的Viterbi算法具有较高的分词效率和准确率。  相似文献   

7.
一种改进的中文分词正向最大匹配算法   总被引:1,自引:0,他引:1  
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端.针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法.与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法.改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高.  相似文献   

8.
中文信息检索引擎中的分词与检索技术   总被引:32,自引:2,他引:32  
吴栋  滕育平 《计算机应用》2004,24(7):128-131
文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。  相似文献   

9.
为了能够快速、准确地进行中文分词,在传统分词词典构造及相应算法的基础上,提出了改进的基于词典中文分词方法.该方法结合双字哈希结构,并利用改进的正向最大匹配分词算法进行中文分词,既提高了分词速度,同时解决了传统最大匹配分词算法中的歧义问题.实验结果表明,该方法在一定程度上提高了中文词语切分的准确率,同时大大缩短了分词时间.  相似文献   

10.
基于新的关键词提取方法的快速文本分类系统*   总被引:9,自引:1,他引:8  
关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用TFIDF算法来筛选出关键词以完成将Web文档进行快速有效分类的目的。实验表明,该方法在不影响分类准确率的情况下,分类的速度明显提高。  相似文献   

11.
介绍了中文分词算法和MFC应用程序,在中文分词方面,采用双向最大匹配算法,即正向最大匹配和逆向最大匹配算法。在系统设计方面,采用MFC应用程序框架实现整个系统的可视化。建立了一个包含44 000余词条的汉语电子词典及其后台数据库,完成了一个包含有汉语电子词典和中文分词功能的应用程序。  相似文献   

12.
在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。本文研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础之上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料上进行实验。该分词方法显著提高了最大匹配分词方法的分词效果,同时也优于当前最好的无监督分词结果。实验表明,该方法快速、有效,利用较小的资源获得了较好的分词效果。  相似文献   

13.
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。  相似文献   

14.
针对传统的汉语句法分析算法进行改进,采用了自底向上与自顶向下相结合的线图分析方法,分析、设计和实现了一个汉语句法分析原型系统.该系统实现了基于最大词长匹配算法的分词模块、基于统计方法的词性标注模块和基于改进的线图分析算法的句法分析模块.最后对系统进行小规模中文文本试验测试,测试结果表明利用改进的分析算法,使得句法分析效率和分析结果的准确率均有一定程度的提高.  相似文献   

15.
一种改进的快速分词算法   总被引:38,自引:0,他引:38  
首先介绍了一种高效的中电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度;然后提出了一种改进的快速分词算法,在快速查找两字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效率.理论分析表明,该分词算法的时间复杂度为1.66,在速度方面,优于目前所见的同类算法。  相似文献   

16.
基于N元汉字串模型的文本表示和实时分类的研究与实现   总被引:4,自引:0,他引:4  
该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统。对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类。由于N元汉字串的文本表示模型中的特征抽取中不需要使用词典分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的特征项。实验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的效果影响是很小的。该文的研究表明N元汉字串特征和词特征的表示能力在分类问题上基本是相同的,但是N元汉字串特征的分类系统可以比分词系统的性能高出好几倍。该文还描述了使用这种模型的自动文本分类系统,包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果。  相似文献   

17.
中文分词是中文信息处理的基础。基于二元统计的HMM中文分词算法表现良好,但也存在易将包含常用介、副词的词进行误拆分的问题。改进的分词算法运用逆向最大匹配的思想,在计算粗分集权重的过程中,考虑了分词的词长及词序对正确切分的有利影响。该算法首先计算出二元统计粗分模型有向边的权值,然后根据词长修定权值,最后运用最短路径法求出分词结果。实验结果表明,该算法有效的解决了过分拆分的问题,分词效果良好。  相似文献   

18.
基于.NET的中文分词系统设计与实现   总被引:1,自引:0,他引:1  
针对中文分词的相关理论,讨论了中文分词的难点、语料库和中文分词算法,然后在.NET下设计了一个中文分词系统。在长词优先的原则下通过SQL Server 2005自建了一个语料库。在Visual Studio 2005下,采用改进的正向减字最大匹配分词算法,使用ASP.NET和C#语言实现了这个系统。结果表明该分词系统达到了较好的分词效果。  相似文献   

19.
基于组合词和同义词集的关键词提取算法*   总被引:4,自引:1,他引:3  
为了提高关键词的提取准确率,在对现有关键词抽取方法进行研究的基础之上,针对影响关键词提取准确率的分词技术、同义词现象等难点,提出了一种基于组合词和同义词集的关键词提取算法。该算法首先利用组合词识别算法极大地改进分词效果,能识别网页上绝大多数的新词、未登录词,为提高关键词自动抽取准确率奠定了坚实的基础;同时利用构造的同义词集,合并同义词的词频,避免了同义词在输出结果中同现;利用综合评分公式,充分考虑候选关键词的位置、长度、词性等特性。实验数据表明,该方法有较高的提取准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号