首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 159 毫秒
1.
分词词典是汉语自动分词系统中的一个基本组成部分,其查询速度直接影响到分词系统的处理速度。文章提出并实现了一种用哈希算法和二分查找算法相结合的中文单词查找算法,实验显示,该算法可以实现对字符串的快速查找。  相似文献   

2.
大家还记得金山词霸的模糊查询通配符*和?的使用方法吧:*号可以代替零到多个字母,?号仅代表一个字母。当忘记一个单词中的某个字母可以用?来代替进行查询,如果仅记起单词的开头或结尾的几个字母,那么可以用*号代替另外的字母来进行模糊查询。通配符很大程度上解决了我们记单词不准确的问题。可是如果只记得单词  相似文献   

3.
全文检索是一种非常有效的信息检索技术,本文通过分析全文检索系统中静态索引技术的优缺点,以及影响动态性能的因素,提出一种基于互关联后继树模型的动态索引技术,该技术在不影响查询效率等性能的情况下,很好地解决了索引的更新问题,提高了索引的动态性能。  相似文献   

4.
全文检索是一种非常有效的信息检索技术,本文通过分析全文检索系统中静态索引技术的优缺点,以及影响动态性能的因素,提出一种基于互关联后继树模型的动态索引技术,该技术在不影响查询效率等性能的情况下,很好地解决了索引的更新问题,提高了索引的动态性能。  相似文献   

5.
对于各种数据空间,数据的查找技术可以说是一项基本的技术,对应于数据空间的理解,可以归纳为大型存储数据空间中的文件查找技术,大型数据库中动态查询和模糊查询技术,以及互联网上的高速路由查找算法。查找技术在这三个领域都有着广泛的应用,也是基本的技术之一,如何提高它们的执行效率就显的是很有意义的了。本文详细阐述了大型数据库中的数据空间的查询技术,介绍了动态查询技术和动态查询表的基本概念,重点研究了模糊查询的几种方法:利用SELECT-SQL语句的模糊查询方法,查询条件为缩略语或简称的模糊查询方法,简单的模糊查询方法。  相似文献   

6.
相信各位对于拼写检测功能不会陌生吧?Word中有,Outlook Express中有,连最新的Foxmail 4.0中也有。拼写检测是一个非常实用的功能,它可以协助我们在文字录入以及撰写信件时减少单词拼写出错的机会。系统的拼写检测程序启动以后,录入的每个单词都会被该程序处理,程序将通过查找词典以确认该单词是否在词典当中,如果是则认定该单词是正确拼写的,否则被视为拼写错误的单词。同时软件将向用户作出提示,如Word会在单词下加上红色曲线,以提醒用  相似文献   

7.
对于各种数据空间.数据的查找技术可以说是一项基本的技术.对应于数据空间的理解.可以归纳为大型存储数据空间中的文件查找技术。大型数据库中动态查询和模糊查询技术,以及互联网上的高速路由查找算法。查找技术在这三个领域都有着广泛的应用.也是基本的技术之一.如何提高它们的执行效率就显的是很有意义的了。本文详细阐述了大型数据库中的数据空间的查询技术.介绍了动态查询技术和动态查询表的基本概念.重点研究了模糊查询的几种方法:利用SELECT-SQL语句的模糊查询方法,查询条件为缩略语或简称的模糊查询方法,简单的模糊查询方法。  相似文献   

8.
文章介绍了利用全文检索技术与Agent技术来完善基于RDBMS开发的MIS系统检索功能的不足之处(即未能提供模糊检索的功能)的方法,并介绍了用该方法所解决的一个实例以及对该实例的性能进行了深入的分析。分析结果证明该方法是有效的、可靠的和有实用价值的。对于解决象图书馆书目模糊查询,旅游地址模糊查询等一类问题是很有帮助的。  相似文献   

9.
关系数据库上基于非数值属性关键词的模糊查询   总被引:1,自引:1,他引:0  
关系数据库上的关键词查找技术使得用户像使用搜索引擎一样获取数据库中的相关数据.然而,这种技术只实现了精确查询,还不能很好地实现模糊查询.本文通过引进分类学习中的Rocchio算法并对其做小部分修改,用于数据库的关键词查询中,结合不同类型对象之间相异度和相关度的量化计算,每次返回的结果集按照相关度降序排列,实现精确到模糊的查询.如果用户不满意初始查询结果集,利用Rocchio算法经过几次交互,便可不断满足需求.对权值优化的Rocchio算法反馈过程进行了实验测试,结果证明是比较令用户满意的,而且返回的结果集中少量的不相关集合可以提高查询的性能.  相似文献   

10.
本文讨论了如何采用模糊集来表示咨询中的模糊数据,并利用模糊隶属函数和模糊算法表述了自然语言中模糊概念和模糊单词的处理规则,进而完成复杂条件的数据查询,且对相关的模糊数据库查询具有参考意义。  相似文献   

11.
基于神经网络的语音合成环节中英语单词音节划分的技术   总被引:1,自引:0,他引:1  
提出了用神经网络来划分英语单词内音节的新方法,该方法比传统的查表法具有很大的优点,如计算速度快,内存需求量少,具有一定的泛化能力,实验证明文章提出方法的正确性和有效性。  相似文献   

12.
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1秒,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。  相似文献   

13.
本文详细介绍SVM(支持向量机)在词频统计中文分词中的应用。可将输入的连续字串进行分词处理,输出分割后的汉语词串,一般为二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。选用了互信息原理进行统计。并采用SVM算法,分词的准确性与传统相比有了很大的提高,并具有一定的稳定性。  相似文献   

14.
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。分析了三种典型的分词词典结构,提出了一种具有三级索引的新词典结构,并提出了最大正向匹配的改进型匹配算法,从而降低了匹配过程的时间复杂度。最后通过实验,比较了三种典型词典结构与新词典结构的时间效率。实验结果表明,新词典结构具有更高的词典查询速度和分词速度,可以有效满足中文处理系统的需求。  相似文献   

15.
电子词典是在机器翻译系统中包含的信息量最大的一个部件,电子词典包的质量和容量直接限定机器翻译的质量和应用范围。与一般的电子词典不同,机器翻译词典每个词条都要比一般的电子词典增加词类信息、语义类别信息和成语等。文章以频率统计和频率分布统计作为维汉机器翻译词典的词条收录原则,统计维吾尔文中常用的单词数目,论述维汉机器翻译词典的设计思想,用BNF形式语言和Jackson图描述维汉机器翻译词典应包含的词条信息,最后介绍词典的具体构造方法、词条排序原则、索引表和属性库的数据结构和词典信息的查找方法。试验表明该词典在解决维吾尔语词汇歧义、结构歧义、提高汉语译文准确率等方面较为有效。  相似文献   

16.
This paper focuses on the optimal tuning of fuzzy control systems using the cross-entropy precise mathematical framework. The design of an optimal fuzzy controller for cutting force regulation in a network-based application and applied to the drilling process is described. The key issue is to obtain optimal fuzzy controller parameters that yield a fast and accurate response with minimum overshoot by minimising the integral time absolute error (ITAE) performance index. Simulation results show that the cross-entropy method does find the optimal solution (i.e. input scaling factors) very accurately, and it can be programmed and implemented very easily (few setting parameters). The results of a comparative study demonstrate that optimal tuning with the cross-entropy method provides a good transient response (without overshoot) and a better error-based performance index than simulated annealing [17], the Nelder-Mead method [14] and genetic algorithms [33]. The experimental results demonstrate that the proposed optimal fuzzy control provides outstanding transient response without overshoot, a small settling time and a minimum steady-state error. The application of optimal fuzzy control reduces rapid drill wear and catastrophic drill breakage due to the increasing and oscillatory cutting forces that occur as the drill depth increases.  相似文献   

17.
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。  相似文献   

18.
In the commodity search system based on Solr full-text search technology, this paper uses the third-party Chinese word breaker on the Chinese search information entered by the user segmentation, inquiry commodity index database based on segmenta- tion results, but it ignores the case which the user enters pinyin to search. By analyzing the grammatical structure of Chinese pinyin, the pinyin word segmentation methods are designed, using a proprietary lexicon of e-commerce to construct a Chinese pinyin li- brary, and implementing a commodity search system based onAjax pinyin input prompts to improve the deficiencies in the search in- put method.  相似文献   

19.
搜索引擎的混合索引技术   总被引:5,自引:0,他引:5  
倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索效果。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号