首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 796 毫秒
1.
中文分词算法概述   总被引:7,自引:0,他引:7  
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论.为中文分词的进一步发展提供基础和方向。  相似文献   

2.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。  相似文献   

3.
中文分词算法研究   总被引:6,自引:0,他引:6  
当前搜索引擎技术被广泛的应用,这使得全文检索技术和中文分词技术的研究逐渐深入。本论文致力于研究中文分词算法,通过实验对分词原理做出比较,对分词算法、词典对分词质量的影响做出判断和评估,并设计了分词原型比较实验,比较测评了当前流行的中文分词方式:中科院分词模块和最大正向匹配法模块。  相似文献   

4.
中文自动分词是计算机中文信息处理中的难题。在对中文分词的现有技术研究的基础上,对反序最大匹配分词方法进行了较深入的研究探讨,在此基础上对中文分词的词典结构和分词算法做了一部分改进,设计了基于反序词典的中文分词系统。实验表明,该改进算法加快了中文的分词速度,使得中文分词系统的效率有了显著提高。  相似文献   

5.
基于反序词典的中文分词技术研究   总被引:2,自引:1,他引:1  
中文自动分词是计算机中文信息处理中的难题.在对中文分词的现有技术研究的基础上,对反序最大匹配分词方法进行了较深入的研究探讨,在此基础上对中文分词的词典结构和分词算法做了一部分改进,设计了基于反序词典的中文分词系统.实验表明,该改进算法加快了中文的分词速度,使得中文分词系统的效率有了显著提高.  相似文献   

6.
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法——正向最大匹配分词算法。该算法是最常见的一种中文分词算法,比较符合人的思维习惯。了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进。  相似文献   

7.
巧用黑盒法逆推百度中文分词算法   总被引:1,自引:0,他引:1  
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术.笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象.介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法--正向最大匹配分词算法.该算法是最常见的一种中文分词算法,比较符合人的思维习惯.了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进.  相似文献   

8.
中文分词是自然语言处理的重要预处理操作。随着非结构化文本的大量产生,中文分词技术的研究尤为重要。结巴分词适用于中文分词,具有完整的技术路线,且Python语言提供了结巴分词接口。使用Python实现中文结巴分词算法简单,准确率较高,能够为自然语言处理提供重要保障。  相似文献   

9.
中文分词算法在搜索引擎应用中有着广泛的应用空间,且能够增加信息检索的准确性,故而值得予以推广。在此之上,本文简要分析了中文分词算法的作用与中文分词算法在搜索引擎中的难点,并分别从基于字符串匹配分词、基于N元语法分词、基于搜索统计技术等方面,论述了中文分词算法在搜索引擎应用中的运用策略,以此提高大众对中文分词算法的认知水平。  相似文献   

10.
本文介绍了搜索引擎的关键技术——中文分词技术,对中文分词技术的概念、常用算法以及分词的难点进行了详细介绍,让读者对中文分词的现状有所了解。  相似文献   

11.
网上信息搜索技术与搜索引擎   总被引:6,自引:1,他引:6  
随着Internet在全球范围内的迅速兴起,面对纷繁复杂的Web空间,如何在浩翰如海的信息空间里快速找到并取得所需的信息,便成为人们所关注的主要问题。搜索引擎的出现,极大地方便了Internet用户,使快速有效地获取信息成为可能。目前网上搜索引擎各种各样,有Yahoo!、Excite、AltaVista、Lycos、Infoseek、OpenText、WebCrawler、WWW Worm等几十种。  相似文献   

12.
基于知识库系统的中文智能搜索引擎   总被引:2,自引:0,他引:2  
随着信息技术的发展和信息量的增长,传统的搜索引擎技术日益不能满足用户信息查询的需要.目前.搜索引擎技术与人工智能(AI)技术的结合已经成为网络信息搜索的关键技术与核心思想.一种基于知识库系统的智能搜索引擎技术已成为当前研究的热点.主要介绍基于知识库系统的中文智能搜索引擎及其实现技术,以及中文智能搜索引擎的主要发展方向.  相似文献   

13.
In the commodity search system based on Solr full-text search technology, this paper uses the third-party Chinese word breaker on the Chinese search information entered by the user segmentation, inquiry commodity index database based on segmenta- tion results, but it ignores the case which the user enters pinyin to search. By analyzing the grammatical structure of Chinese pinyin, the pinyin word segmentation methods are designed, using a proprietary lexicon of e-commerce to construct a Chinese pinyin li- brary, and implementing a commodity search system based onAjax pinyin input prompts to improve the deficiencies in the search in- put method.  相似文献   

14.
基于中文搜索引擎网络信息用户行为研究*   总被引:1,自引:0,他引:1  
为了更好地理解中文搜索用户的检索行为,首先建立一个搜索引擎选择平台,主要是用来生成研究中所需的日志文件;然后从中英文用户的搜索行为差异的角度出发,对日志文件进行深入研究,包括各中文搜索引擎使用率比较以及中文用户输入查询行为的一些规律等。研究结果表明,对准确地评测搜索引擎检索的效果以及未来中文搜索引擎设计的改进都有较好的指导意义。  相似文献   

15.
推荐 CAJ下载PDF下载不支持迅雷等加速下载工具,请取消加速工具后下载。 随着互联网经济的迅猛发展,PO(IPoint Of Interest)搜索成为空间信息服务业发展的核心技术之一。提高用户满意度无疑是POI搜索引擎的最终目标。通过挖掘用户访问日志,建立反馈相似度模型,可提高搜索结果准确度,优化POI搜索引擎。通过理论分析,该方法在不增加计算时间的基础上提高了搜索结果的准确性。最后将该方法应用于中国科学院计算技术研究所地理信息中心自主研发的通图(www.tongmap.cn)地图搜索引擎中,结合实际数据测试,说明该方法在优化POI搜索引擎方面是行之有效的。  相似文献   

16.
深层网技术是获取隐藏在以表单为特征的网络数据库检索入口后的数据页面的提取技术,解决了通用搜索引擎不能有效索引深层网网页的问题。专利数据是一类重要的深层网数据资源,对其进行提取、挖掘具有重要意义。本文利用深层网技术开发了一个专利检索系统,实现了对中国和美国专利数据的本地检索、提取和下载,以及针对中国专利的法律状态检索。该软件支持专利的批量下载及文件管理,并根据中国和美国专利显示为多个单页TIFF格式图片不利于本地管理和浏览的特点,开发了实用性较强的TIFF格式图片多页合并和通用PDF格式转换功能。该专利检索系统采用面向用户的界面设计和功能开发,具有简单、易用的特点。  相似文献   

17.
搜索引擎的出现改变了人们获取信息的方式,利用搜索引擎可以快速地找到需要的信息,为我们在Intemet上获取信息提供了一种有效的手段。但随着Intemet的发展和网上信息量的激增,人们在使用中却发现要准确、快速地查找自己所需的信息是越来越困难。文章依据搜索引擎、Agent技术,提出了基于多Agent技术的智能搜索引擎概念,能够有效地提高搜索引擎的搜索质量和用户服务,为解决当前搜索引擎存在的一些问题提供了一种新的有效的方法  相似文献   

18.
随着高校信息化建设的快速推进,数字化信息资源变得越来越重要,现已成为高校的关键基础设施。针对高校各种数字化信息资源使用现状,本文探讨建设高校数字化信息资源搜索的必要性,并在分析当前各种搜索技术的基础上,对高校数字化信息资源搜索专用技术进行研究,并设计了一个适合于教学、科研与自主学习的搜索引擎。  相似文献   

19.
汲业  陈燕  杨健  慕蓉 《计算机工程》2010,36(24):24-26
根据生活服务领域网页信息的特点,提出一种面向生活服务领域的垂直搜索引擎模型,给出该模型在信息采集、信息抽取、索引建立和信息检索4个功能模块的具体算法及实现方式。实际应用表明,该模型搜索效果良好,提供HTML和WML 2种方式的用户界面,已经成功覆盖全国近40个城市的餐饮、娱乐和黄页信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号