首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
本文给出了一个实现日语自动分词的算法,该算法充分考虑日语的构调及构句特点,利用精心设计的分词词典和邻接规则库,对日语句子进行分词,该算法不同于“最长一致”和“最少句节数”方法,而是几种方法的混合体,另外,本分词算法还对未登录词的处理进行了考虑。  相似文献   

2.
一种改进的快速分词算法   总被引:38,自引:0,他引:38  
首先介绍了一种高效的中电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度;然后提出了一种改进的快速分词算法,在快速查找两字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效率.理论分析表明,该分词算法的时间复杂度为1.66,在速度方面,优于目前所见的同类算法。  相似文献   

3.
一种改进的MM分词算法   总被引:28,自引:0,他引:28  
本文首先提出一种对中文句子进行分词预处理的方法,在预处理过程中就能完成分词过程中所有的数据库访问操作,这种方法可以不加修改地应用于所有机械分词算法以及消除歧义,然后在预处理的基础上实现一种改进的MM法,更加密全地遵照“长词优先”的原则,使分词系统在机械分词阶段能有比MM法更好的效果。  相似文献   

4.
基于最大匹配的中文分词概率算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
结合顺序表和跳跃表的快速查询特性,提出一种改进的整词分词词典结构,主要采用哈希法和二分法进行分词匹配,并针对机械分词算法的特点,引入随机数,探讨一种基于最大匹配的分词概率算法。实验表明,该算法具有较高的分词效率和准确率,对消去歧义词也有较好的性能。  相似文献   

5.
蔡蕊 《福建电脑》2010,26(2):69-70
在分析已有的中文分词算法的基础上,利用改进的词典结构,提出一种新的基于Hash的中文分词算法。理论和实验证明,改进的算法可以进一步提高分词的效率。  相似文献   

6.
贾震斌 《福建电脑》2010,26(11):1-2,7
本文深入研究了最大熵分类算法的基本原理,针对计算机自然语言处理领域特点,结合概率统计理论,在隐式篇章关系识别应用中实现了最大熵算法的分类模型,在隐式篇章关系识别中取得了与目前国际先进水平接近的识别率,为下一步研究建立了基准平台。  相似文献   

7.
基于交叉覆盖算法的中文分词   总被引:1,自引:1,他引:0  
中文分词是自然语言处理的前提和基础,利用分类效果较好的交叉覆盖算法实现中文分词.将中文分词想象成字的分类过程,把字放入向前向后相邻两个字这样一个语境下判断该字所属的类别,是自己独立,或是跟前一字结合,或是跟后一字结合,或是跟前后的字结合.对人民日报熟语料库进行训练,不需要词典,可以较好地解决中文分词中的交叉歧义问题,分词正确率达90.6%.  相似文献   

8.
采用最大匹配算法对高棉语进行分词准确率较低,且难以正确识别词库中没有的新词。针对该问题,采用改进的Viterbi算法,利用自动机实现音节切分,通过最优选择及剪枝操作提高分词效率,以统计语言模型对未知新词进行数据平滑,提高识别正确率。实验结果表明,改进的Viterbi算法具有较高的分词效率和准确率。  相似文献   

9.
赵越超  李睿哲  汪达钦 《计算机仿真》2022,39(4):170-173,184
预测式外呼是一种高效的触达客户的方式.但如何在尽可能提高坐席利用率的目标下又同时要控制住呼损率,一直是企业亟待解决的问题,尤其是在话务接通率波动较大的情况下.设计了一种基于机器学习技术的预测和自适应控制算法,能够精确地预测给定拨打速度下的坐席利用率和呼损率,能够自适应各类话务接通率来实时调整拨打速度.基于数值分析发现,...  相似文献   

10.
基于Hash结构的逆向最大匹配分词算法的改进   总被引:8,自引:1,他引:7  
分析中文的语义,首先要对句子进行分词.中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果.对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM).该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义.实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高.  相似文献   

11.
基于遗传算法的汉语未登录词识别   总被引:1,自引:0,他引:1  
针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法.该方法扩大了分词碎片容量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中,单字存在"可组合"和"不可组合"两类,采用遗传算法先将分词碎片中的单字词确定下来,然后将其余相邻单字组合,完成未登录词识别.实验结果表明,该方法可有效地解决未登录词识别问题,提高未登录词识别的精确率和召回率.  相似文献   

12.
本文提出了一种快速学习算法,它解决了Brill基于变换的学习方法中规则获取时间过长的问题.在每次迭代过程中,该算法仅需调整受到影响的小部分变换模式,而无需遍历所有变换模式,大大节省了学习时间.应用这一快速学习算法,以SUSANNE英语语料库作为训练文本,获得300条英语词性标注规则和生词处理的概率知识,实现了一个英语词性标注系统,系统封闭测试和开放测试的正确率分别达到了98.2%和96.6%.  相似文献   

13.
随着计算机和多媒体技术的发展,图像处理算法在编程中的地位显得越来越重要,本文主要讨论了利用VB提供的取色和画点两个关键方法,实现图像处理的几类常见方法.  相似文献   

14.
提出了一个结合统计和规则的口语理解方法.首先,用统计分类器对输入进行主题分类,然后用语义规则提取主题相关的语义槽.该方法在主题分类和语义槽提取方面都具有较低的错误率,同时具有很好的鲁棒性,并在图书馆查询系统的查询需求理解中取得了很好的结果.  相似文献   

15.
周健  蒋平 《机器人》2002,24(5):436-442
本文介绍了一种基于支持向量规则的运动控制器自然语言构造方法,提出利用 支持向量机理论,对通过自然语言构造的模糊控制规则进行支持向量规则抽取,从而获得一 个在指定控制精度下的支持向量规则运动控制器.这种方法可以在给定任务精度下抽取真正 有效的控制规则完成控制任务,使控制规则数及控制器形式得到简化,为未来将基于语言构 造的控制器推向实用奠定了基础.所提控制方法在一个轮式移动机器人系统上进行了语言训 练实验.  相似文献   

16.
从漏洞信息当中抽取结构化信息对于安全研究而言有重要意义。安全研究者常需要在大规模的CVE数据中按特定要求进行筛选,或对漏洞进行自动化的分析测试。然而现有的CVE数据库中只包含了非结构化的文本描述和并不完备的辅助信息。从描述文本抽取结构化的信息能帮助研究者更好地组织与分析CVE。总结漏洞描述包含的七种核心要素,为结构化抽取建立模型,并将信息抽取转换为一个序列标注模型,构建数据集对其进行训练。实验表明,该模型能够以较高的准确率从CVE文本中抽取出各类关键信息。  相似文献   

17.
交互学习是数据挖掘的一种重要手段。使用交互学习作为学习系统和用户的交互模型,以向用户提供最大效用结果为目标,通过对用户反馈质量进行定量描述,考察偏好反馈,提出一种基于最小遗憾度的偏好感知算法。此外,还对偏好感知算法的期望遗憾度界限进行分析,并给出该算法的几个扩展版本。最后利用电影推荐任务及网络搜索排名数据验证了该算法的有效性。  相似文献   

18.
一种基于字词结合的汉字识别上下文处理新方法   总被引:6,自引:0,他引:6  
根据字、词信息之间的互补性,提出一种字、词结合的上下文处理方法.在单字识别的基础上,首先利用前向一后向搜索算法在较大的候选集上进行基于字bigram模型的上下文处理,在提高文本识别率的同时可提高候选集的效率;然后在较小的候选集上进行基于词bigram模型的上下文处理.该方法在兼顾处理速度的同时,可有效地提高文本识别率.脱机手写体汉字文本(约6.6万字)识别中的实验表明:经字bigram模型处理,文本识别率由处理前的81.58%提高至94.50%,文本前10选累计正确率由94.33%提高到98.25%;再经词bigram模型处理,文本识别率进一步提高至95.75%。  相似文献   

19.
文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。  相似文献   

20.
一种基于修改的约束满足算法   总被引:1,自引:0,他引:1  
求解约束满足问题的修改算法从实始的有冲突的完整解出发,不断修改理有的变量赋值,从而得到无冲突的完整解。本文将启发式方法应用了修改型算法,提出了一种高效的基于修改的约束满足算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号