首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
本文提出了电子商务行业搜索引擎的概念,通过对通用搜索引擎技术进行分析,结合电子商务行业对搜索引擎的需求提出需要改进的部分,并设计出一个电子商务行业搜索引擎整体结构;此外,讨论了几种搜索引擎的中文分词算法,结合电子商务行业的特点对分词算法进行了改进,提出一种适用于电子商务行业搜索应用的全新分词系统。最后,结合整体结构与分词系统并利用已有的网络开源项目,实现了一个电子商务行业搜索引擎。  相似文献   

2.
中文分词算法在搜索引擎应用中有着广泛的应用空间,且能够增加信息检索的准确性,故而值得予以推广.在此之上,本文简要分析了中文分词算法的作用与中文分词算法在搜索引擎中的难点,并分别从基于字符串匹配分词、基于N元语法分词、基于搜索统计技术等方面,论述了中文分词算法在搜索引擎应用中的运用策略,以此提高大众对中文分词算法的认知水...  相似文献   

3.
针对目前最常用的分词算法——最大匹配算法效率低,长度受限等缺点,在对中文编码体系和中文分词的算法进行研究的基础上,提出了一种新的词库数据结构。它支持首字Hash和标准二分查找,而且不限制词条的长度。然后介绍了基于该词库设计的一种快速的分词算法,并给出了算法的实现过程。  相似文献   

4.
中文搜索引擎的自动分词算法   总被引:2,自引:0,他引:2  
提出了基于关键词搜索的两种自动分词算法。均以双词及三词作为搜索的最小单位 (或基本单位 )。一种以栈实现 ,一种不借助栈且动态匹配实现。通过此两种算法均可进行发布网站、网页前网名入数据库的关键词标识提取及实现匹配后有效性的确认 ,以提高中文搜索引擎的搜索准确率及获得由网名入数据库前后同步性决定的快速响应  相似文献   

5.
中文分词算法在搜索引擎应用中的研究   总被引:14,自引:1,他引:14  
在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。  相似文献   

6.
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。  相似文献   

7.
本文介绍了搜索引擎的关键技术——中文分词技术,对中文分词技术的概念、常用算法以及分词的难点进行了详细介绍,让读者对中文分词的现状有所了解。  相似文献   

8.
基于字表的中文搜索引擎分词系统的设计与实现   总被引:9,自引:0,他引:9  
丁承  邵志清 《计算机工程》2001,27(2):191-192,F003
分析了常用的基于词典的汉语分词方法用于中文搜索引擎开发中的不足,提出基于字表的中文搜索引擎分词系统,并在索引,查询,排除歧义等方面进行了设计和实现。  相似文献   

9.
随着我国科学技术的进步,网络信息化的快速发展,搜索引擎成为了人们查找数据的最主要工具。在搜索引擎中,为了提高用户查找所需要数据信息的准确性和全面性,可以使用中文分词技术,中文分词技术在中文搜索引擎中占据了重要的地位。用户在使用中文分词技术对中文搜索引擎的查准率及查全率有着深刻的影响。  相似文献   

10.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。  相似文献   

11.
邹嵩  赵诗阳  周新志 《微机发展》2012,(2):131-133,137
为了提高垂直搜索引擎的检索效率,介绍了垂直搜索引擎中的分词技术。文中主要通过研究最大长度匹配算法,提出了改进后的最大长度匹配算法以提高检索效率。改进后的算法显示,分词效果得到了一定的提升,体现了相对于普通最大长度匹配算法的优势。且通过将改进后的方法与普通最大长度匹配算法相比较可知,改进后的算法提高了搜索的正确率,提升了检索的效率,是一种对最大长度匹配算法的有效改进,由此也体现了搜索引擎中算法合理设计可以提升搜索性能。  相似文献   

12.
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法——正向最大匹配分词算法。该算法是最常见的一种中文分词算法,比较符合人的思维习惯。了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进。  相似文献   

13.
中文信息检索引擎中的分词与检索技术   总被引:32,自引:2,他引:32  
吴栋  滕育平 《计算机应用》2004,24(7):128-131
文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。  相似文献   

14.
针对目前图书馆的各种电子资源都需要在各自的平台上单独检索的问题,提出构建基于搜索引擎的一站式检索平台,实现在统一的检索界面上,一次检索就能获得所有电子资源的相关文献信息,使读者能在最短的时间内获得最深入、最准确、最全面的文献信息。  相似文献   

15.
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。该文结合使用Heritrix与Lucene对学校新闻网站网页进行抓取并建立索引,建立相对应的新闻垂直搜索引擎系统。  相似文献   

16.
基于全文搜索的中文搜索引擎设计技术   总被引:6,自引:0,他引:6  
随着Internet应用的逐步普及,WWW已成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但由于中文信息处理的复杂性和特殊性,中文搜索引擎的功能仍不够完善。该文提出了一个基于全文搜索的中文搜索引擎的实现方案,并对信息处理中的关键技术进行了探讨。  相似文献   

17.
基于条件随机场的汉语分词系统   总被引:6,自引:1,他引:6  
汉语分词是自然语言处理的首要的基本工作。本文提出了一个基于条件随机场(简称CRF)的汉语分词模型,CRF模型作为一个判别模型,可以容纳任意的非独立的特征信息。我们首先将分词看作是一个标记的过程,然后利用CRF模型对每个汉字进行标记,最后转换为相应的分词结果。系统采用感知机(Perceptron)算法进行参数训练。跟以前利用CRF进行分词的模型相比,本系统定义并使用了不同的特征函数,取得了更好的切分结果。在1st SIGHAN分词比赛PK测试集上封闭测试,F值为95.2%。  相似文献   

18.
黄鑫  朱征宇  谢祈鸿 《微处理机》2008,29(1):107-110
汉语自动分词是进行中文信息处理的基础。传统分词需要大规模加工过的熟语料库做为测试集来训练模型以获取参数,代价高昂。在互信息和t-测试差的基础上,通过将两者进行线性和非线性组合,提出了一个新的统计量mt。该统计量所需的所有统计数据直接从待切分的生语料中获得,无须大规模加工过的熟语料和人工干预,大大降低了分词成本。测试结果显示,该统计量关于字间位置的分词正确率为80.14%,比单独使用互信息和t-测试差分别提高了6.83%和7.27%。  相似文献   

19.
汉语自动分词词典机制的实验研究   总被引:66,自引:4,他引:66  
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号