首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
最大匹配算法包括正向最大匹配和逆向最大匹配两种算法,是中文分词领域的基础性算法,目前被广泛应用于众多领域。文中在详细分析了最大匹配算法的优缺点的基础上,提出了一种改进的最大匹配分词算法。改进算法在分词前先对词库进行了规范化预处理,分词时由汉字检索到该字开头的词组,再按词组长度由长到短的顺序使用传统最大匹配算法检索词库。目的是解决传统方法匹配效率低下和不能切分长词的问题。经算法分析结果表明,改进的算法较传统的最大匹配算法高效,分词能力更强。  相似文献   

2.
通过搜索引擎进行精准搜索并获得数据是信息图形设计的基础,互联网搜索引擎一般使用蜘蛛程序,根据工作方式的不同分为三个类型:全文检索、索引与目录检索和元检索。与英文相比,中文搜索为避免产生歧义,须要进行分词,并组建不断更新的词库。掌握一定的搜索语法如完全匹配搜索等,可以大大提升搜索效率。  相似文献   

3.
一种改进的中文分词正向最大匹配算法   总被引:1,自引:0,他引:1  
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端.针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法.与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法.改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高.  相似文献   

4.
网络信息的日益增加迫切需要适宜的检索工具,特别是进行专业信息的检索,需要体现专业词汇特点的搜索引擎。本文在对搜索引擎核心技术进行研究的基础上,提出了石油化工信息搜索引擎的设计方案,开发了网络机器人模块,实现了海量网页的自动获取;采用最短路径分词和正向最大匹配相结合的算法,实现了中文自动分词;开发了信息索引模块,实现了网页的批量索引和增量索引;开发了信息检索模块,提供布尔逻辑查询,实现摘要自动生成。通过系统集成,初步建立了体现石油化工专业特点的搜索引擎。  相似文献   

5.
中文分词算法在搜索引擎应用中有着广泛的应用空间,且能够增加信息检索的准确性,故而值得予以推广。在此之上,本文简要分析了中文分词算法的作用与中文分词算法在搜索引擎中的难点,并分别从基于字符串匹配分词、基于N元语法分词、基于搜索统计技术等方面,论述了中文分词算法在搜索引擎应用中的运用策略,以此提高大众对中文分词算法的认知水平。  相似文献   

6.
面向搜索引擎Lucene的中文分析器   总被引:1,自引:0,他引:1       下载免费PDF全文
针对目前应用于搜索引擎Lucene的中文分析器的分词不符合汉语习惯的现状,根据正向最大匹配切分算法和采用包括基本标准中文词语的词库,实现了自己的分析器。该分析器的分词结果更符合汉语的习惯,并且在分词、建立索引等方面的性能非常接近基于机械分词的分析器,另外在检索速度方面性能提升了2~4倍,在检索召回率方面性能提升了59%。  相似文献   

7.
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法——正向最大匹配分词算法。该算法是最常见的一种中文分词算法,比较符合人的思维习惯。了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进。  相似文献   

8.
巧用黑盒法逆推百度中文分词算法   总被引:1,自引:0,他引:1  
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术.笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象.介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法--正向最大匹配分词算法.该算法是最常见的一种中文分词算法,比较符合人的思维习惯.了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进.  相似文献   

9.
从搜索流程的分词和页面排序出发,由于中文分词比较复杂,鉴于正向最大分词算法和逆向最大分词算法的优缺点,提出基于正向最大和逆向最大匹配的双向匹配算法,该算法在一定程度提高了分词的准确性。页面排序也是影响用户搜索效率的一个重要因素,而网页相关度和网页的链接都是直接影响网页权值的重要因素,因而提出一种基于网页相关性的PageRank算法。新的页面排序算法既防治了页面漂移的可能性,也防治了全部依赖网页相关性的排序结果。  相似文献   

10.
本文提出了电子商务行业搜索引擎的概念,通过对通用搜索引擎技术进行分析,结合电子商务行业对搜索引擎的需求提出需要改进的部分,并设计出一个电子商务行业搜索引擎整体结构;此外,讨论了几种搜索引擎的中文分词算法,结合电子商务行业的特点对分词算法进行了改进,提出一种适用于电子商务行业搜索应用的全新分词系统。最后,结合整体结构与分词系统并利用已有的网络开源项目,实现了一个电子商务行业搜索引擎。  相似文献   

11.
经典字符串匹配算法的本质都是从左向右或者从右向左顺序进行字符匹配的,在主串中存在大量子串与模式串前缀或者后缀相同时效率较低,并且模式串最大右移长度为模式串长度。改进算法采用二分匹配字符串的方法,有效地避免了由主串中大量子串与模式串前缀相同或者后缀相同引起的无意义比较次数。模式串的移动距离根据改进的坏字符规则进行计算,增大了模式串的移动距离。实验结果表明,改进的字符串匹配算法可以有效地减少字符串的匹配次数和移动次数,达到了提高算法效率的目的。  相似文献   

12.
分析引擎是入侵检测系统的核心部分,一个好的模式匹配算法直接决定了入侵检测系统分析引擎的效率。本文对几种经典的模式匹配算法如:BM算法,BMH算法以及BMHS算法等经典算法进行了研究和分析,比较了几种算法的优劣。最后在BMHS算法的基础上提出一种改进的算法,该算法可以有效提高入侵检测系统的检测速度。  相似文献   

13.
入侵检测系统Snort是一种常用的入侵检测软件,该文其分析系统的检测引擎及其采用的模式匹配算法尤其是BM算法进行了深入的分析和讨论,在分析的基础中对BM算法进行改进,使用一种新的模式匹配算法,以减少匹配时间,提高匹配效率,达到提高算法的平均性能和较少资源消耗的目的。  相似文献   

14.
中文交互式网络搜索引擎及其自学习能力   总被引:8,自引:1,他引:8  
论文介绍了一种具有自学习能力的中文交互式网络搜索引擎INSE(aninteractivenetsearchengineforChi-nesetext),向量空间模型、基于自动机思想的中文分词技术和神经网络BP算法的应用是INSE的主要特点,重点讨论了INSE的自学习能力。基于自动机思想分词是INSE提出的新概念,应用于中文分词可以满足最大匹配且速度较快。INSE自学习能力的实现依靠神经网络的BP算法。该算法应用于交互式网络搜索引擎可以提供更加精确的查询结果。  相似文献   

15.
一种改进的快速分词算法   总被引:38,自引:0,他引:38  
首先介绍了一种高效的中电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度;然后提出了一种改进的快速分词算法,在快速查找两字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效率.理论分析表明,该分词算法的时间复杂度为1.66,在速度方面,优于目前所见的同类算法。  相似文献   

16.
模式匹配算法是入侵防御系统中检测引擎的核心算法,模式匹配算法的效率决定了入侵防御系统的性能。本文对模式匹配算法进行了研究,重点分析了多模式匹配算法Wu-Manber算法,并针对Wu-Manber算法存在的不足,提出了Wu-Manber算法的改进算法。  相似文献   

17.
地图匹配算法分为在线和离线匹配,针对离线地图匹配中Marchal算法精度较低以及存在模糊多解的问题,利用伪Zenike矩对其进行改进,将行驶轨迹与道路曲线利用伪Zenike矩进行形状描述,然后对曲线进行特征匹配,获取道路点。实验结果表明,新算法可以较好地纠正矢量数据不完整时Marchal算法产生的错误结果,很大程度上提高了匹配的准确性,而且匹配的效率优于现有算法。  相似文献   

18.
文中针对复杂背景条件下的散装仓粮食图像二值化分割问题,将遗传算法引入改进的最大类间方差法中,利用遗传算法具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,提高了分割算法的时间效率,克服了采用传统最大类间方差法在散装仓粮食图像分割中的速度慢的局限性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号