首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入。中文分词是中文信息的关键技术之一,其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论,为中文分词的进一步发展提供基础和方向。  相似文献   

2.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。  相似文献   

3.
中文分词算法研究   总被引:6,自引:0,他引:6  
当前搜索引擎技术被广泛的应用,这使得全文检索技术和中文分词技术的研究逐渐深入。本论文致力于研究中文分词算法,通过实验对分词原理做出比较,对分词算法、词典对分词质量的影响做出判断和评估,并设计了分词原型比较实验,比较测评了当前流行的中文分词方式:中科院分词模块和最大正向匹配法模块。  相似文献   

4.
中文自动分词是计算机中文信息处理中的难题。在对中文分词的现有技术研究的基础上,对反序最大匹配分词方法进行了较深入的研究探讨,在此基础上对中文分词的词典结构和分词算法做了一部分改进,设计了基于反序词典的中文分词系统。实验表明,该改进算法加快了中文的分词速度,使得中文分词系统的效率有了显著提高。  相似文献   

5.
基于反序词典的中文分词技术研究   总被引:2,自引:1,他引:1  
中文自动分词是计算机中文信息处理中的难题.在对中文分词的现有技术研究的基础上,对反序最大匹配分词方法进行了较深入的研究探讨,在此基础上对中文分词的词典结构和分词算法做了一部分改进,设计了基于反序词典的中文分词系统.实验表明,该改进算法加快了中文的分词速度,使得中文分词系统的效率有了显著提高.  相似文献   

6.
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法——正向最大匹配分词算法。该算法是最常见的一种中文分词算法,比较符合人的思维习惯。了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进。  相似文献   

7.
巧用黑盒法逆推百度中文分词算法   总被引:1,自引:0,他引:1  
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术.笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象.介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法--正向最大匹配分词算法.该算法是最常见的一种中文分词算法,比较符合人的思维习惯.了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进.  相似文献   

8.
中文分词是自然语言处理的重要预处理操作。随着非结构化文本的大量产生,中文分词技术的研究尤为重要。结巴分词适用于中文分词,具有完整的技术路线,且Python语言提供了结巴分词接口。使用Python实现中文结巴分词算法简单,准确率较高,能够为自然语言处理提供重要保障。  相似文献   

9.
中文分词算法解析   总被引:4,自引:0,他引:4  
中文分词是计算机中文信息处理中的难题,而中文分词算法是其中的核心,但由于中英文环境中语素的不同特点,使得中文必须要解决分词的问题。这篇文章较为深刻的阐述了中分分词的算法,基于对分词算法的理解和对匹配法分词的分析,对最大匹配分词方法进行了较深入的研究探讨,提出了什么算法是解决分词效率的最佳方法以及各种方法的比较优劣等问题,及可能产生的歧义.对不同的算法给予了充分的解释,通过对各种算法的比较,总结出了比较常用和效率较高的算法。  相似文献   

10.
中文分词算法在搜索引擎应用中有着广泛的应用空间,且能够增加信息检索的准确性,故而值得予以推广。在此之上,本文简要分析了中文分词算法的作用与中文分词算法在搜索引擎中的难点,并分别从基于字符串匹配分词、基于N元语法分词、基于搜索统计技术等方面,论述了中文分词算法在搜索引擎应用中的运用策略,以此提高大众对中文分词算法的认知水平。  相似文献   

11.
This paper treats segmentation of time patterns as a heuristic search problem. Segmentation is formulated in terms of image restoration. An observed pattern, which is the stochastically deformed image of a pure image consisting of a number of regimes, is to be segmented to recover the regimed structure. Standard statistical decision methods are not very useful here because of the computational difficulties involved. The search process described here consists of application of a sequence of heuristic-adaptive operators. Each operator is designed to detect certain flaws in previous segmentations and make modifications accordingly. The search path thus generated ends in a loop from among which the final solution is chosen by an evaluating function. Results of experiments with simulated data are presented and discussed.Research supported in part by an NSF research grant on pattern recognition (GJ-31007X2) and an ONR research contract on computer systems performance evaluation (NOOO14-67-A-0191-0026-01) while the author was at the Division of Applied Mathematics, Brown University, Rhode Island.  相似文献   

12.
中文分词是自然语言处理的基础性问题。条件随机场模型分词过程中出现的切分粒度过小和多字粘连造成的错分问题,是影响分词结果的两个主要原因。提出了一个基于字词分类的层次分词模型,该模型采用多部有效词典进行处理,在外层分词系统中解决切分粒度过小问题;在内层核心层,条件随机场分词后再处理多字粘连问题。实验结果表明,采用加入多词典的字词结合层次分类模型F-测度值有较大的提高,有助于得到好的分词结果。  相似文献   

13.
网上信息搜索技术与搜索引擎   总被引:7,自引:1,他引:6  
随着Internet在全球范围内的迅速兴起,面对纷繁复杂的Web空间,如何在浩翰如海的信息空间里快速找到并取得所需的信息,便成为人们所关注的主要问题。搜索引擎的出现,极大地方便了Internet用户,使快速有效地获取信息成为可能。目前网上搜索引擎各种各样,有Yahoo!、Excite、AltaVista、Lycos、Infoseek、OpenText、WebCrawler、WWW Worm等几十种。  相似文献   

14.
在综述国内外学者有关聚类搜索引擎和本体技术研究成果的基础上,试图梳理出现阶段该领域的研究热点和难点问题,为后续研究奠定一定的研究基础。分别从聚类搜索引擎的定义、研究现状,本体技术,基于本体的中文环境下语义聚类搜索等方面对已有的研究文献进行了系统的综述,并提出基于本体的聚类搜索引擎总体框架和成员引擎的调度策略;在上面基础上提出对未来研究的展望。  相似文献   

15.
从本土化角度分析了中文搜索引擎百度与俄文搜索引擎Yandex的核心技术及其特点:百度基于特有的中文分词技术,Yandex依赖于独一无二的俄语词型变化处理技术。通过具体的查询实例对两者进行分析比较,指出了各自的优缺点。  相似文献   

16.
In the commodity search system based on Solr full-text search technology, this paper uses the third-party Chinese word breaker on the Chinese search information entered by the user segmentation, inquiry commodity index database based on segmenta- tion results, but it ignores the case which the user enters pinyin to search. By analyzing the grammatical structure of Chinese pinyin, the pinyin word segmentation methods are designed, using a proprietary lexicon of e-commerce to construct a Chinese pinyin li- brary, and implementing a commodity search system based onAjax pinyin input prompts to improve the deficiencies in the search in- put method.  相似文献   

17.
基于知识库系统的中文智能搜索引擎   总被引:2,自引:0,他引:2  
随着信息技术的发展和信息量的增长,传统的搜索引擎技术日益不能满足用户信息查询的需要.目前.搜索引擎技术与人工智能(AI)技术的结合已经成为网络信息搜索的关键技术与核心思想.一种基于知识库系统的智能搜索引擎技术已成为当前研究的热点.主要介绍基于知识库系统的中文智能搜索引擎及其实现技术,以及中文智能搜索引擎的主要发展方向.  相似文献   

18.
基于中文搜索引擎网络信息用户行为研究*   总被引:1,自引:0,他引:1  
为了更好地理解中文搜索用户的检索行为,首先建立一个搜索引擎选择平台,主要是用来生成研究中所需的日志文件;然后从中英文用户的搜索行为差异的角度出发,对日志文件进行深入研究,包括各中文搜索引擎使用率比较以及中文用户输入查询行为的一些规律等。研究结果表明,对准确地评测搜索引擎检索的效果以及未来中文搜索引擎设计的改进都有较好的指导意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号