共查询到20条相似文献,搜索用时 93 毫秒
1.
专业搜索引擎中文分词算法的实现与研究 总被引:1,自引:0,他引:1
为实现专业信息查询的中文搜索引擎,首要的问题就是中文分词。本文首先介绍了分词用词典数据结构的组织以及使用二分查找的查询算法,然后提出了一种基于最短路径的改进分词算法。实验证明,利用该算法。可以消除大量歧义,取得较好的分词效果。 相似文献
2.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。 相似文献
3.
李文华 《数字社区&智能家居》2021,(6)
中文分词算法在搜索引擎应用中有着广泛的应用空间,且能够增加信息检索的准确性,故而值得予以推广。在此之上,本文简要分析了中文分词算法的作用与中文分词算法在搜索引擎中的难点,并分别从基于字符串匹配分词、基于N元语法分词、基于搜索统计技术等方面,论述了中文分词算法在搜索引擎应用中的运用策略,以此提高大众对中文分词算法的认知水平。 相似文献
4.
5.
巧用黑盒法逆推百度中文分词算法 总被引:1,自引:0,他引:1
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术.笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象.介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法--正向最大匹配分词算法.该算法是最常见的一种中文分词算法,比较符合人的思维习惯.了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进. 相似文献
6.
7.
本文介绍了搜索引擎的关键技术——中文分词技术,对中文分词技术的概念、常用算法以及分词的难点进行了详细介绍,让读者对中文分词的现状有所了解。 相似文献
8.
9.
中文搜索引擎的原理剖析及开发实现技术 总被引:13,自引:0,他引:13
介绍了当前搜索引擎的分类、现状及中文搜索引擎的发展,剖析了中文搜索引擎采用的核心技术-全文检索与中文分词技术,探讨了编程中应注意的问题和部分实现技术,并对中文搜索引擎的发展提出了几点建议。 相似文献
10.
农业搜索引擎中文分词工具对比 总被引:1,自引:0,他引:1
中文分词是中文语言处理技术中最关键的部分,被作为其中最重要的预处理手段广泛应用.本文主要分析和比较了ASPSeek、ICTCLAS、Paoding、MMseg、IK与JE六种分词工具对农业搜索引擎的影响.结果表明:在农业搜索引擎的应用效果中,分词准确性最优的是ICTCLAS分词工具,而F1测度最高的是JE分词工具. 相似文献
11.
12.
13.
开发中文搜索引擎汉语处理的关键技术 总被引:24,自引:0,他引:24
论述了开发中文搜索引擎语言方面的两项关键技术,即中文分词技术和汉化问题,介绍了几种解决方案,并在结尾展望了中文搜索引擎的未来。 相似文献
14.
分词方法是中文搜索引擎系统中最为基础和最为重要的技术,它直接影响搜索引擎对用户搜索结果的准确性与快速性。本文采用链栈存储用户按搜索目标分割好的搜索关键字,利用链栈先进后出的操作特点,用逆向最大匹配分词法实现中文搜索引擎中搜索关键字的快速与准确分词,从而实现系统对用户搜索的快速与准确反应。 相似文献
15.
基于中文分词的OWL—S/UDDI语义Web服务检索模型 总被引:2,自引:0,他引:2
目前中文搜索引擎尚不能进行语义检索,经OWL-S语义扩展后的语义Web服务检索也未充分考虑中文词语之间无空格的特点.基于语义Web服务技术与中文分词技术,提出基于中文分词的OWL-S/UDDI语义Web服务检索模型.该模型对中文检索请求语句进行中文分词并附加语义,所生成的服务请求OWL-S文档与语义扩展UDDI中的OWL-S服务描述进行匹配,进而实现Web服务的动态查找与组合.实验结果表明,语义Web服务检索可提高Web服务发现的质量. 相似文献
16.
检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、词长、词性和位置几项约束条件计算各节点词语得分;合并基类取得分高的节点词作标签。实验结果显示该方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。 相似文献
17.
18.
19.
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。 相似文献