首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
汉语分词是汉语处理与拼音文字语言处理的一个不同点.本文回顾了汉语分词研究的发展,对现有的四种汉语分词方法进行了评述,介绍了当前的研究现状和存在的困难,并提出了一种基于期望的汉语分词方法.这种方法把分词与理解同步进行.基于这种方法的汉语分词模型是由预处理模块、词头处理模块、期望分词模块、句法分析模块、语义分析模块、学习模块以及知识库组成.  相似文献   

2.
N-gram语言模型中的插值平滑技术研究   总被引:9,自引:0,他引:9  
本文研究了N元文法(N-gram)统计语言模型中的4种插值平滑算法,在中文语言模型中进行了应用,从语言模型复杂度的角度比较了该4种方法解决零概率问题的效果。  相似文献   

3.
汉语自动分词是中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题。基于词典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频计算耗费时间。本文提出优化最大匹配与统计结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略。然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率。最后,基于分词算法实现中文分词系统,并通过实验对算法进行了分析和验证。  相似文献   

4.
通过研究和分析现有最大匹配分词算法,词库结构的设计和分词算法直接关系着分词的速度和效率,提出了一种改进的最大匹配分词算法——基于双字词的动态最大匹配分词算法,设计并实现了汉语分词词库和算法。实验结果表明,此算法相对于现有最大匹配分词算法有显著提高。  相似文献   

5.
汉语分词作为中文信息处理的首要环节,其精确度对后续步骤的准确度和处理速度成逐级放大性影响.如何提高分词的准确度和处理速度成为近年研究的重点.采用条件随机场模型进行汉语分词,通过定量分析CRF工具包训练参数f,研究减少特征对分词准确度以及模型大小的影响程度,实验分别在国际汉语分词评测Bakeoff2005提供的北京大学和微软亚洲研究院两个语料上进行封闭测试,并对比采用不同模板时增加f参数值对分词性能的影响,最终得出实验结果:随着f参数值的增加,分词的准确度和生成的模型大小成正比,且F值减小的程度相对训练生成模型大小的减小程度要小得多.  相似文献   

6.
自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一种新的分词算法,幷对该算法进行了理论分析和实验验证。  相似文献   

7.
汉语分词技术综述   总被引:15,自引:0,他引:15  
分词是中文信息处理的基础,在汉语文本分类、文献标引、智能检索、自然语言理解与处理等应用中,首先都要对中文文本进行分词处理。从分词的基本理论出发,对近年来的汉语分词的研究方法与成果进行了综合论述,分析了现有分词方法的特点,提出了把神经网络和专家系统结合起来建立集成式汉语自动分词系统的构想。  相似文献   

8.
大视场视频全景图生成研究   总被引:2,自引:0,他引:2  
针对采用传统方法生成的视频全景图存在拼接裂缝和“鬼影”现象的问题,提出了一种新的大视场视频全景图生成算法.该算法基于快速傅立叶变换的图像配准算法,求取两相邻视频帧之间的配准系数,采用改进的线性系统法对配准系数进行全局优化.对存在运动物体的视频图像,采用启发式最优路径搜索算法寻找到图像间拼接的最佳缝合线,并使用多分辨率原理进行图像拼接后的平滑处理.实验结果表明,该算法优化了图像间的配准系数,平滑处理了拼接后的图像,减少了人工性缺陷,提高了视频全景图的真实感.  相似文献   

9.
一种改进的汉语N元文法统计语言模型   总被引:2,自引:0,他引:2  
提出一种利用声学匹配结果平滑语言模型的新方法,根据汉语语言的特点,利用声学识别中提供的汉语分词信息修正统计语言模型中N-元文法转移概率分布,有效地提高了汉语语音识别系统统计模型的顽健性能。  相似文献   

10.
近年来基于字的词位标注方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线。该方法中特征模板选择至关重要,采用四词位标注集,使用条件随机场模型进一步研究基于字的词位标注汉语分词技术,在第三届和第四届国际汉语分词评测Bakeoff语料上进行封闭测试,并对比了不同特征模板集对分词性能的影响。实验表明采用的特征模板集:TMPT-10′较传统的特征模板集分词性能更好。  相似文献   

11.
In order to construct a good language model used in the postprocessing phase of a recognition system.A smoothing technique must be used to solve the data sparseness problem. In the past,many smoothing techniques have been proposed. Among them, Katz‘ s smoothing technique is well known.However,we found that a weakness with the Katz‘ s smoothing technique. We improved this approach by incorporating one kind of special Chinese language information and Chinese word class information into the language model.We tested the new smoothing technique with a Chinese character recognition system.The experimental result showed that a better performance can be achieved.  相似文献   

12.
基于双向匹配法和特征选择算法的中文分词技术研究   总被引:1,自引:0,他引:1  
传统的双向匹配算法虽然能够发现歧义现象,但是却不能解决歧义问题.为了更好地进行歧义消解,提出了一种基于双向匹配法和特征选择算法的中文分词技术,通过积累的语料库,设计并实现了一个基于两种方法的分词系统.该系统的实验结果表明,基于双向匹配法和特征选择算法的中文分词技术比传统方法的效果要好.  相似文献   

13.
14.
随机需求条件下三级供应链数量折扣协调策略   总被引:2,自引:0,他引:2  
为了分析随机需求条件下三级供应链协调策略,考虑提前期内需求服从正态分布,建立由供应商、制造商和零售商所组成的三级供应链的数量折扣协调模型,并设计相应的算法对模型进行求解,得到实现供应链协调的各个成员的最优订单决策和库存决策.所建立的模型考虑制造商一方面可以从供应商处取得数量折扣,同时也向其下游的零售商提供数量折扣.最后结合具体算例对模型进行应用分析,并得出如下结论:在三级供应链中,制造商上游和下游同时考虑数量折扣策略能够降低供应链成本,与仅仅考虑两级供应链的数量折扣策略相比,其对供应链成本的降低幅度更大.  相似文献   

15.
本文通过比较不同的销售预测方法,指出指数平滑法进行销售预测的优点,并且说明指数平滑法中平滑系数的大小对预测值有较大影响,重点探讨了在一次指数平滑法中如何采用改进的试算法对平滑系数α进行优化,提高预测的准确性。  相似文献   

16.
词语义项标注在自然语言处理领域占有重要地位.词义排歧知识的获取、基于排歧知识构建词义标注的语言模型,以及对所构建模型性能的评价就成为词语义项标注系统的三个核心问题,尤其是前两个问题非常重要,难度也很大.为更好地研究这些问题,设计并实现了一个面向词语义项标注研究的试验软件平台,应用该软件平台,很容易实现对不同语言模型、知识获取算法的试验与比较,且在模型确定之后,稍作改进,该实验系统就能成为一个功能完善的自动标注软件系统.试验表明,该平台对汉语词义标注的研究是有用的.  相似文献   

17.
目的解决光电跟踪系统中由于时间延迟所带来的量测误差,提高光电跟踪系统的跟踪精度.方法使用折扣最小二乘方法预测40ms延迟所造成的跟踪误差,提出自适应变折扣预测算法.结果仿真结果表明改进的预测算法具有更好的补偿效果.带有预测算法的最优控制律能够获得较好的跟踪结果.结论自适应变折扣预测算法能够大幅度降低光电跟踪系统的跟踪误差,并保证预测过程的动态性能和稳态性能.  相似文献   

18.
网络流量预测是网络管理的重要内容,高效的流量预测方法可提高网络管理效率。针对网络流量的时变性等问题,提出了一种基于智能优化的分布式网络流量预测方法。该方法采用果蝇算法优化3次指数平滑预测模型中的平滑因子,对时间窗口内收集到的网络流量进行预测,从而有效地提高3次指数平滑模型下网络流量预测的准确度与效率。仿真实验表明:相比传统3次指数平滑预测模型,此方法可解决平滑因子的不确定性所导致的预测结果误差问题,有效提高了网络流量预测精度。  相似文献   

19.
提出了一种基于证据融合的视频语义概念检测方法。提取了镜头关键帧的分块颜色矩、小波纹理特征和视觉词汇直方图,利用SVM对3种特征数据分别进行训练,建立模型;对各SVM模型泛化误差进行分析,采用折扣系数法对不同SVM模型输出的分类结果进行修正;采用基于m in-max算子的证据融合公式对修正后的输出进行融合,把融合结果作为最终的概念检测结果。实验结果表明,新方法提高了概念检测的准确率,优于传统的线性分类器融合方法。  相似文献   

20.
基于改进的kNN算法的中文网页自动分类方法研究   总被引:6,自引:0,他引:6  
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号