首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
分词词典是汉语自动分词系统中的一个基本组成部分,其查询速度直接影响到分词系统的处理速度。文章提出并实现了一种用哈希算法和二分查找算法相结合的中文单词查找算法,实验显示,该算法可以实现对字符串的快速查找。  相似文献   

2.
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。  相似文献   

3.
针对目前最常用的分词算法——最大匹配算法效率低,长度受限等缺点,在对中文编码体系和中文分词的算法进行研究的基础上,提出了一种新的词库数据结构。它支持首字Hash和标准二分查找,而且不限制词条的长度。然后介绍了基于该词库设计的一种快速的分词算法,并给出了算法的实现过程。  相似文献   

4.
改变传统分词系统字典词语的线性排列方式,结合现代汉语词语特点,采用树型结构表示词语——词树。词语匹配过程中,依托树型字典,使用直接查找算法匹配字符,从空间和时间两个方面提高分词效率。  相似文献   

5.
论文从实用的角度出发,在自行开发的一套分词系统的基础上,简要说明了一个分词系统的各个组成部分以及各部分的处理方法,并提出了一个可扩展分词系统的框架。这个框架具有很好的适应性和灵活性,能够适用于各种不同的统计方法或者规则统计相结合的方法。该框架也可包容各种未登录词识别的方法。可以作为进一步研究和开发分词系统的一个基础平台,也可以为构造一个分词系统作指导。  相似文献   

6.
国内自80年代中后期就开展了中文分词词典机制的研究,目前已有的分词词典机制主要有:基于整词二分的词典机制、基于TRIE,索引树的词典机制和双字哈希机制。笔者根据中文中四字成语较多的特点对双字哈希机制扩展到四字哈希机制,下面介绍其分词词典的数据结构和查找算法。  相似文献   

7.
分词是藏文信息处理的基础性关键问题,是把连续的藏文音节序列组合成词序列的过程.针对藏文分词中的特殊问题,把藏文分词问题看成判断音节在词中的位置过程,分别实现了基于最大熵、条件随机场、最大间隔Markov网络模型等模型下的分词系统,并在同等条件下进行了实验对比.实验结果表明,在当前四字位的标注集下,基于条件随机场的藏文分词系统取得了最好的分词结果,同时其他序列标注模型也取得了较好的效果,说明基于音节标注的分词方法可以较为有效地处理藏文分词问题.  相似文献   

8.
对信息检索系统中常用的两种分词方法,即词表分词法和二元分词法,进行了分析比较。针对二元分词的分词结果冗余度大的问题,提出了改进方法,即经过预处理的二元分词方法。  相似文献   

9.
中文分词是文本过滤的首要的基础性工作,也是智能化中文信息处理的关键。本文提出了一种结合正向最大匹配法和互信息的中文分词算法。实验结果说明,该算法能在一定程度上提高文本的分类性能。  相似文献   

10.
一种规则与统计相结合的汉语分词方法   总被引:20,自引:2,他引:18  
汉语自动分词是中文信息处理领域的一项基础性课题,对现有的汉语分词方法作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。  相似文献   

11.
本文进一步研究了分档检索法,提出了适用于不均匀分布数据的高效率的数据检索法,本文是文[1]的推广。  相似文献   

12.
在化工分离过程设计中,共沸点预测的作用十分重要,目前常用的方法有牛顿迭代和牛顿同伦等,都需要求解大型非线性方程组,且牛顿迭代法易发散,本文提出修正UNIFAC模型的逐次代入法同时与折半搜索联合的算法,既克服牛顿迭代计算时因取初值不合适时而容易发散的缺点,又不需要求解大型非线性方程组,且计算速度快,计算中对逐次代入法进行改进,使温度初值的取法更简捷,且无发散现象,通过验证乙醇-苯等10多种二元混合物,计算过程均可在1 MS以内完成,计算所得共沸点与文献所载实验值比较,平均误差<1%,共沸点组成与文献所载实验值比较,平均误差<2%,证明该法不但可用于二元混合物共沸点预测,又可在相应大型数据库中查找可产生共沸效果的混合物.  相似文献   

13.
一种基于二分搜索的网络拓扑探测方法*   总被引:2,自引:1,他引:1  
网络拓扑测量是人们对网络进行管理的基础,对网络仿真与建模、网络协议设计、网络算法优化等有重要意义,网络拓扑测量的关键在于其采用的方法。通过分析制约传统的Traceroute方法和DoubleTree算法性能的关键因素,基于二分搜索的思想,提出了一种网络拓扑探测方法BisearchTrace。实验结果表明,该方法有效地降低了网络负载,加快了拓扑探测的速度,提高了网络拓扑测量的效率,具有良好的实用性。  相似文献   

14.
基于二进制数据库的信息搜索算法   总被引:6,自引:4,他引:2  
李志伟  郭峰 《计算机工程与设计》2005,26(10):2759-2761,2774
提出了一个有效的雷达信息搜索算法。该算法基于对二进制雷达记录数据库的分析,建立了可视化的数据结构,提出了信息搜索的单支树组织模型,采用深度优先和回溯算法简化了搜索复杂度,成功地解决了二进制数据文件的结构化处理问题,为使用、操作记录数据库提供了算法基础。实践证明,该方法简便、稳定,能快捷地处理信息搜索问题。  相似文献   

15.
高尚 《微型电脑应用》2005,21(11):51-51,64
在分析二分搜索方法基础上,提出了一种新的搜索方法。通过测试,该方法简单且比二分搜索方法效率还高。  相似文献   

16.
魏少涵 《计算机时代》2012,(9):31-32,36
折半查找是一种常见的静态查找方法,在特定的、有序的查找区间内,通过折半方式不断地缩小查找区间,将区间中间位置的元素与给定元素加以比较,最终确定查找结果.在此传统折半查找基础上,总结了一种抽象化的改进方法,并将此改进后的折半查找算法应用于最优化问题的求解.  相似文献   

17.
针对栅格环境下存在任意形状的静态障碍物问题,提出了结合二分搜索法的牛耕式全覆盖路径规划算法,该算法可以加速寻找下一个未覆盖空间的初始位置,提高了覆盖的效率。对该算法在多种室内环境中进行仿真,仿真结果表明该算法切实可行。另外,通过与其他全覆盖算法进行对比,结果表明该方法能有效地降低重复覆盖率。  相似文献   

18.
基于分段搜索的多RFID标签抗冲突方法*   总被引:1,自引:1,他引:0  
由于二元树抗冲突方法消耗的识别时间随标签数量呈线性增长,因而提高巨量(>100)标签的抗冲突识别的效率对于推动RFID的应用显得尤为重要。对此本文提出一种分段搜索清点RFID标签的抗冲突方法,通过减少清点过程中标签对阅读器回传数据的位数,达到减少传输耗时的目的。将其与现有的动态二进制搜索法对比,仿真结果表明,当标签突破一定数量,对于特定的分段方式,该算法能够显著降低清点过程的时间消耗。  相似文献   

19.
当前对有序数列查找常用二分查找,但是二分查找具有一定的约束性和特殊情况下的低效性,为此研究并设计了索引折半查找算法,理论上其平均查找效率优于二分查找的平均查找效率。对比实验验证了索引折半查找算法的良好性能。  相似文献   

20.
在方幂模的二进制快速算法基础上,进一步改写方幂模计算表达式,设计了一种基于查表法的二进制快速算法。算法将指数的二进制形式进行分组,提前计算并记忆一个二进制分组中首位为1其他位任意变化的所有情况下的方幂模结果,然后遍历指数的二进制形式,按照算法规则直接平方或连续多次平方后与事先记忆的值相乘,已经记忆的值不需要重复计算,从而减少了大量的乘法运算。算法分析和实验结果证明,基于查表法的方幂模二进制快速算法比二进制算法减少了乘法次数,尤其指数二进制形式中有大量1连续出现或相对连续出现(同一分组内有两位以上为1)的情况下算法效率比二进制算法有大幅度提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号