首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
中文搜索引擎现状与展望   总被引:19,自引:0,他引:19  
本文介绍了中文搜索引擎的发展现状,分析了中文搜索引擎中存在的问题,以及与国外先进的搜索引擎的差距,提出了中文搜索引擎的发展方向。  相似文献   

2.
随着我国科学技术的进步,网络信息化的快速发展,搜索引擎成为了人们查找数据的最主要工具。在搜索引擎中,为了提高用户查找所需要数据信息的准确性和全面性,可以使用中文分词技术,中文分词技术在中文搜索引擎中占据了重要的地位。用户在使用中文分词技术对中文搜索引擎的查准率及查全率有着深刻的影响。  相似文献   

3.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。  相似文献   

4.
开发中文搜索引擎汉语处理的关键技术   总被引:24,自引:0,他引:24  
严威  赵政 《计算机工程》1999,25(6):5-6,8
论述了开发中文搜索引擎语言方面的两项关键技术,即中文分词技术和汉化问题,介绍了几种解决方案,并在结尾展望了中文搜索引擎的未来。  相似文献   

5.
中文分词算法在搜索引擎应用中有着广泛的应用空间,且能够增加信息检索的准确性,故而值得予以推广。在此之上,本文简要分析了中文分词算法的作用与中文分词算法在搜索引擎中的难点,并分别从基于字符串匹配分词、基于N元语法分词、基于搜索统计技术等方面,论述了中文分词算法在搜索引擎应用中的运用策略,以此提高大众对中文分词算法的认知水平。  相似文献   

6.
中文搜索引擎中的中文信息处理技术   总被引:24,自引:0,他引:24  
就中文搜索引擎中的若干中文信息处理技术作了较深入地探讨,对诸如中文分词、中文码制转换和中文全半解处理等方面提出了较完整的解决方案。  相似文献   

7.
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法——正向最大匹配分词算法。该算法是最常见的一种中文分词算法,比较符合人的思维习惯。了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进。  相似文献   

8.
学习研究了搜索引擎的工作原理,对办公系统及部分信息管理系统建立了统一的索引信息,针对检测业务查询关键字及基于字典词库的中文分词技术,建立了检测中心内部办公及相关信息系统的搜索引擎查询机制,并将中文分词技术应用于企业级的知识库软件confluence,实现系统的专业中文词汇检索查询功能。  相似文献   

9.
巧用黑盒法逆推百度中文分词算法   总被引:1,自引:0,他引:1  
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术.笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象.介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法--正向最大匹配分词算法.该算法是最常见的一种中文分词算法,比较符合人的思维习惯.了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进.  相似文献   

10.
本文介绍了搜索引擎的关键技术——中文分词技术,对中文分词技术的概念、常用算法以及分词的难点进行了详细介绍,让读者对中文分词的现状有所了解。  相似文献   

11.
介绍了当前搜索引擎的分类、现状及发展,剖析了搜索引擎采用的核心技术——全文检索与分词技术,提出了MicroFtp新算法和基本原理,并将该算法与其他搜索引擎作了比较。  相似文献   

12.
面向信息检索的自适应中文分词系统   总被引:16,自引:0,他引:16  
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.  相似文献   

13.
一种基于Lucene的影片搜索引擎的研究和应用   总被引:1,自引:0,他引:1  
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。  相似文献   

14.
从中英文用户的搜索习惯差异的角度出发,引入中文分词技术对中文搜索引擎的搜索日志进行了分析。重点分析了用户输入搜索词的一些规律,包括选择的语言、搜索词的长度和频率、高级搜索技巧的使用以及搜索词的修改情况;还提出了用户提交搜索词的模型,给出了历史搜索词对搜索结果的影响因子算法。  相似文献   

15.
一种基于词典的搜索引擎系统动态更新模型   总被引:12,自引:0,他引:12  
基于词汇标注的特征项提取方法是中文信息处理的有效方法,但词汇的析取是基于词典的,词典的涵盖程度决定了词汇切分的准确率,因而不断地学习新词汇、动态地维护词典,使整个中文信息处理系统具有自适应性和动态性就成了一个关键问题,以搜索引擎系统为例,提出了一种基于词典动态变化的搜索引擎系统更新理论模型和实现模型,相关实验表明,该模型对缩短搜索引擎信息库的更新时间、提高查询准确率等方面十分有效。  相似文献   

16.
赵珂  逯鹏  李永强 《计算机工程》2011,37(16):39-41
针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,索引模块应用倒排索引方法,系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明,该方案具有较高的资源检索率,同时能够保证检索结果的准确性。  相似文献   

17.
专业搜索引擎系统的设计与实现   总被引:2,自引:0,他引:2  
随着信息技术的迅猛发展,搜索引擎技术的应用也变得越来越广泛。文章提出了一种构建专业搜索引擎的总体构架,详细介绍了框架中专业信息采集和处理子系统的设计和实现方法、网站相关度计算方法和层进式最短路径中文分词算法,通过建立相关度知识库和化工专业词库,进一步提高了系统的专业性和检索效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号