共查询到20条相似文献,搜索用时 31 毫秒
1.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。 相似文献
2.
3.
巧用黑盒法逆推百度中文分词算法 总被引:1,自引:0,他引:1
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术.笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象.介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法--正向最大匹配分词算法.该算法是最常见的一种中文分词算法,比较符合人的思维习惯.了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进. 相似文献
4.
全二分最大匹配快速分词算法 总被引:29,自引:1,他引:29
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。 相似文献
5.
中文交互式网络搜索引擎及其自学习能力 总被引:8,自引:1,他引:8
论文介绍了一种具有自学习能力的中文交互式网络搜索引擎INSE(aninteractivenetsearchengineforChi-nesetext),向量空间模型、基于自动机思想的中文分词技术和神经网络BP算法的应用是INSE的主要特点,重点讨论了INSE的自学习能力。基于自动机思想分词是INSE提出的新概念,应用于中文分词可以满足最大匹配且速度较快。INSE自学习能力的实现依靠神经网络的BP算法。该算法应用于交互式网络搜索引擎可以提供更加精确的查询结果。 相似文献
6.
中文分词算法在搜索引擎应用中的研究 总被引:15,自引:1,他引:14
欧振猛 《计算机工程与应用》2000,36(8):80-82,84
在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。 相似文献
7.
8.
9.
中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型匹配算法,大大降低了匹配过程的时间复杂度。从而提高了整个中文分词算法的分词速度。 相似文献
10.
基于字表的中文搜索引擎分词系统的设计与实现 总被引:9,自引:0,他引:9
分析了常用的基于词典的汉语分词方法用于中文搜索引擎开发中的不足,提出基于字表的中文搜索引擎分词系统,并在索引,查询,排除歧义等方面进行了设计和实现。 相似文献
11.
12.
本文介绍了搜索引擎的关键技术——中文分词技术,对中文分词技术的概念、常用算法以及分词的难点进行了详细介绍,让读者对中文分词的现状有所了解。 相似文献
13.
14.
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。 相似文献
15.
专业搜索引擎中文分词算法的实现与研究 总被引:1,自引:0,他引:1
为实现专业信息查询的中文搜索引擎,首要的问题就是中文分词。本文首先介绍了分词用词典数据结构的组织以及使用二分查找的查询算法,然后提出了一种基于最短路径的改进分词算法。实验证明,利用该算法。可以消除大量歧义,取得较好的分词效果。 相似文献
16.
17.
在基于内容的中文反垃圾邮件技术中,中文分词是必不可少的一个环节。面对大规模的邮件训练样本和大负载的邮件服务器,中文分词算法的时间效率成为中文垃圾邮件过滤技术中的一个瓶颈。对此,提出一种应用在中文垃圾邮件过滤系统中的实时分词算法。该算法采用一种TRIE树型结构作为词典载体并基于最大匹配的原则,同时,在实时分类阶段结合hash表进行特征查询,极大地提高了系统的时间效率。 相似文献
18.
针对目前应用于搜索引擎Lucene的中文分析器的分词不符合汉语习惯的现状,根据正向最大匹配切分算法和采用包括基本标准中文词语的词库,实现了自己的分析器。该分析器的分词结果更符合汉语的习惯,并且在分词、建立索引等方面的性能非常接近基于机械分词的分析器,另外在检索速度方面性能提升了2~4倍,在检索召回率方面性能提升了59%。 相似文献
19.
20.
本文对当前的搜索引擎原理进行了简要的分类介绍,概述了中文搜索引擎的特殊性和难点,并给出了两种中文分词算法。 相似文献