首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
专业搜索引擎中文分词算法的实现与研究   总被引:1,自引:0,他引:1  
王坚  赵恒永 《福建电脑》2005,(7):55-55,57
为实现专业信息查询的中文搜索引擎,首要的问题就是中文分词。本文首先介绍了分词用词典数据结构的组织以及使用二分查找的查询算法,然后提出了一种基于最短路径的改进分词算法。实验证明,利用该算法。可以消除大量歧义,取得较好的分词效果。  相似文献   

2.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。  相似文献   

3.
中文分词算法在搜索引擎应用中有着广泛的应用空间,且能够增加信息检索的准确性,故而值得予以推广。在此之上,本文简要分析了中文分词算法的作用与中文分词算法在搜索引擎中的难点,并分别从基于字符串匹配分词、基于N元语法分词、基于搜索统计技术等方面,论述了中文分词算法在搜索引擎应用中的运用策略,以此提高大众对中文分词算法的认知水平。  相似文献   

4.
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法——正向最大匹配分词算法。该算法是最常见的一种中文分词算法,比较符合人的思维习惯。了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进。  相似文献   

5.
巧用黑盒法逆推百度中文分词算法   总被引:1,自引:0,他引:1  
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术.笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象.介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法--正向最大匹配分词算法.该算法是最常见的一种中文分词算法,比较符合人的思维习惯.了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进.  相似文献   

6.
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入。中文分词是中文信息的关键技术之一,其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论,为中文分词的进一步发展提供基础和方向。  相似文献   

7.
本文介绍了搜索引擎的关键技术——中文分词技术,对中文分词技术的概念、常用算法以及分词的难点进行了详细介绍,让读者对中文分词的现状有所了解。  相似文献   

8.
中文分词算法概述   总被引:7,自引:0,他引:7  
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论.为中文分词的进一步发展提供基础和方向。  相似文献   

9.
中文搜索引擎的原理剖析及开发实现技术   总被引:13,自引:0,他引:13  
介绍了当前搜索引擎的分类、现状及中文搜索引擎的发展,剖析了中文搜索引擎采用的核心技术-全文检索与中文分词技术,探讨了编程中应注意的问题和部分实现技术,并对中文搜索引擎的发展提出了几点建议。  相似文献   

10.
农业搜索引擎中文分词工具对比   总被引:1,自引:0,他引:1  
中文分词是中文语言处理技术中最关键的部分,被作为其中最重要的预处理手段广泛应用.本文主要分析和比较了ASPSeek、ICTCLAS、Paoding、MMseg、IK与JE六种分词工具对农业搜索引擎的影响.结果表明:在农业搜索引擎的应用效果中,分词准确性最优的是ICTCLAS分词工具,而F1测度最高的是JE分词工具.  相似文献   

11.
中文分词算法研究   总被引:6,自引:0,他引:6  
当前搜索引擎技术被广泛的应用,这使得全文检索技术和中文分词技术的研究逐渐深入。本论文致力于研究中文分词算法,通过实验对分词原理做出比较,对分词算法、词典对分词质量的影响做出判断和评估,并设计了分词原型比较实验,比较测评了当前流行的中文分词方式:中科院分词模块和最大正向匹配法模块。  相似文献   

12.
从中英文用户的搜索习惯差异的角度出发,引入中文分词技术对中文搜索引擎的搜索日志进行了分析。重点分析了用户输入搜索词的一些规律,包括选择的语言、搜索词的长度和频率、高级搜索技巧的使用以及搜索词的修改情况;还提出了用户提交搜索词的模型,给出了历史搜索词对搜索结果的影响因子算法。  相似文献   

13.
开发中文搜索引擎汉语处理的关键技术   总被引:24,自引:0,他引:24  
严威  赵政 《计算机工程》1999,25(6):5-6,8
论述了开发中文搜索引擎语言方面的两项关键技术,即中文分词技术和汉化问题,介绍了几种解决方案,并在结尾展望了中文搜索引擎的未来。  相似文献   

14.
赵双柱 《福建电脑》2010,26(1):86-86,90
分词方法是中文搜索引擎系统中最为基础和最为重要的技术,它直接影响搜索引擎对用户搜索结果的准确性与快速性。本文采用链栈存储用户按搜索目标分割好的搜索关键字,利用链栈先进后出的操作特点,用逆向最大匹配分词法实现中文搜索引擎中搜索关键字的快速与准确分词,从而实现系统对用户搜索的快速与准确反应。  相似文献   

15.
基于中文分词的OWL—S/UDDI语义Web服务检索模型   总被引:2,自引:0,他引:2  
目前中文搜索引擎尚不能进行语义检索,经OWL-S语义扩展后的语义Web服务检索也未充分考虑中文词语之间无空格的特点.基于语义Web服务技术与中文分词技术,提出基于中文分词的OWL-S/UDDI语义Web服务检索模型.该模型对中文检索请求语句进行中文分词并附加语义,所生成的服务请求OWL-S文档与语义扩展UDDI中的OWL-S服务描述进行匹配,进而实现Web服务的动态查找与组合.实验结果表明,语义Web服务检索可提高Web服务发现的质量.  相似文献   

16.
检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、词长、词性和位置几项约束条件计算各节点词语得分;合并基类取得分高的节点词作标签。实验结果显示该方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。  相似文献   

17.
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询。Nutch0.9较好地处理了英文分词,但对中文分词处理还不够完善。文章介绍了在Nutch0.9中实现索引及检索的二分法,提出了改进中文分词的方法。  相似文献   

18.
本文提出了电子商务行业搜索引擎的概念,通过对通用搜索引擎技术进行分析,结合电子商务行业对搜索引擎的需求提出需要改进的部分,并设计出一个电子商务行业搜索引擎整体结构;此外,讨论了几种搜索引擎的中文分词算法,结合电子商务行业的特点对分词算法进行了改进,提出一种适用于电子商务行业搜索应用的全新分词系统。最后,结合整体结构与分词系统并利用已有的网络开源项目,实现了一个电子商务行业搜索引擎。  相似文献   

19.
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。  相似文献   

20.
许高建  胡学钢  王庆人 《微机发展》2007,17(12):122-124
文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号