首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
基于最大熵模型的汉语问句语义组块分析   总被引:1,自引:0,他引:1  
问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。  相似文献   

2.
语言信息处理技术中的最大熵模型方法   总被引:6,自引:0,他引:6  
1 引言进行汉语处理时经常遇到的问题有:分词、词性标注、语法和语义分析等等。这些自然语言中的问题都可以形式化为分类问题,估计某一类y在上下文x中发生的概率,即p(y,x)。在汉语中上下文x的内容可以包括汉字、词、词性等,对于不同的任务上下文的内容也不同。这类问题可以采用统计建模的方法去处理。首先是采集大量样本进行训练,样本代表了该任务的知识和信息,选取样本的好坏确定了知识完整性的程度。然后建立一个统计模型,并把样本知识结合到模型中,来预测随机过程将来的行为。  相似文献   

3.
基于最大熵模型的本体概念获取方法   总被引:1,自引:0,他引:1       下载免费PDF全文
本体是语义检索的核心。本体构建主要包括领域概念获取和概念间关系获取,其中领域概念获取是本体构建的基础。采用基于最大熵模型的方法来获取概念,通过对领域文本进行挖掘而得到名词性短语,使用改进的TF-IDF公式从中抽取具有领域性的短语,并经人工修正后得到本体概念。实验表明该方法提高了概念的准确性和完整性。  相似文献   

4.
基于最大熵方法的统计语言模型   总被引:2,自引:0,他引:2  
针对现有统计语言模型中存在计算量过大和系统负担过重的问题,该文提出了一种基于最大熵方法的统计语言模型。模型在参数估计阶段,引入约束最优化理论中拉格朗日乘数定理和牛顿迭代算法,以确保模型在多个约束条件中可求出最优化参数值;在特征选择阶段,采用计算近似增益的平行算法,解决模型计算量过大和系统开销问题。将该模型用于汉语句子分析的软件实验中表明:模型具有较高的计算效率和鲁棒性。  相似文献   

5.
基于最大熵模型的汉语依存分析   总被引:1,自引:0,他引:1  
刘贵全  曾宇斌 《计算机工程》2006,32(11):216-218
采用最大熵模型实现中文依存语法的分析。用自底而上的方式构建语句的依存关系树,构建过程每一步在向左连接、向右连接以及不连接3种动作选取其一。用最大熵原理判断每个动作的概率,得到依存树中各边的概率,然后找出具有最大概率的依存关系树。实验结果表明,该模型具有较好的分析精度。目前,该模型已被应用于基于自然语言的信息检索项目中。  相似文献   

6.
最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。  相似文献   

7.
基于最大熵模型的英文名词短语指代消解   总被引:11,自引:0,他引:11  
提出了一种新颖的基于语料库的英文名词短语指代消解算法,该算法不仅能解决传统的代词和名词/名词短语间的指代问题,还能解决名词短语间的指代问题。同时,利用最大熵模型,可以有效地综合各种互不相关的特征,算法在MUC7公开测试语料上F值达到了60.2%,极为接近文献记载的该语料库上F值的最优结果61.8%。  相似文献   

8.
基于最大熵模型的QA系统置信度评分算法   总被引:1,自引:0,他引:1  
游斓  周雅倩  黄萱菁  吴立德 《软件学报》2005,16(8):1407-1414
置信度指的是一个问题回答系统(QA系统)对其所作回答的自信程度.描述了一种基于最大熵模型的算法.首先,从训练语料中提取若干因素来训练最大熵模型;然后应用训练好的模型在测试集上计算置信度.在2002年度的文本检索会议(TREC)中,QA系统用该算法计算每个问题答案的置信度,并依此排序,获得了显著的成绩.  相似文献   

9.
实现了一个基于最大熵的中文指代消解系统。通过预处理获得相关信息,抽取出12特征,采用最大熵算法训练生成分类器。在ACE05 bnews中文测试语料上的指代消解实验结果表明,本系统是一个中文指代消解研究的较好平台。  相似文献   

10.
基于统计的汉语组块分析   总被引:10,自引:6,他引:10  
刘芳  赵铁军  于浩 《中文信息学报》2000,14(6):28-32,39
组块分析是一种大大降低句法分析难度的有效手段。本文针对汉语普遍规律,提出了一套符合汉语语言特点的汉语组块体系,并在此基础上设计实现了一种统计与错误驱动相结合的、能够分析有限层次的组块自动识别算法。实验证明,该方法能够有效地处理真实文本中的浅层分析问题,具有较好的准确率和鲁棒性。  相似文献   

11.
为解决句法分析任务中的块边界识别和块内结构分析问题,该文基于概念复合块描述体系进行了块分析探索。通过概念复合块与以往的基本块和功能块描述体系的对比分析,深入挖掘了概念复合块自动分析的主要难点所在,提出了一种基于“移进-归约”模型的汉语概念复合块自动分析方法。在从清华句法树库TCT中自动提取的概念复合块标注库上,多层次、多角度对概念复合块自动分析性能进行了纵向与横向评估,初步实验结果证明了该分析方法对简单概念复合块分析的有效性,为后续进行更复杂的概念复合块的句法语义分析研究打下了很好的基础。  相似文献   

12.
基于最大熵的依存句法分析   总被引:1,自引:0,他引:1  
该文提出并比较了三种基于最大熵模型的依存句法分析算法,其中最大生成树(MST)算法取得了最好的效果。MST算法的目标是在一个带有权重的有向图中寻找一棵最大的生成树。有向图的每条边都对应于一个句法依存关系,边的权重通过最大熵模型获得。训练和测试数据来源于CoNLL2008 Share Task的公用语料。预测的F1值在WSJ和Brown两个测试集上分别达到87.42%和80.8%,在参加评测单位中排名第6。  相似文献   

13.
句子主干分析的主要任务是自动识别句子的主干成分。鉴于汉语句子之间成分的相关性,提出一种多层最大嫡模型,它的底层最大嫡利用句子的上下文特征识别主千词候选项,高层最大嫡利用底层最大嫡模型的计算结果,结合句子内的远距离特征和句子之间的关系,对底层最大嫡模型识别出的主干词候选集进行分析。实验证明,该模型对于简单的主干成分识别正确率较高,对训练语料有一定的依赖;随着语料规模的增长,模型性能缓慢提升。  相似文献   

14.
汉语组块分析研究综述   总被引:2,自引:0,他引:2  
组块分析作为浅层句法分析的代表,既可以满足很多语言信息处理系统对于句法功能的需求,又可以作为子任务,在词法分析和完全句法分析以及语义分析中间架起一座桥梁,为句子进行进一步深入分析提供有力的支持,因此众多的研究将注意力集中于组块分析上。该文主要对组块的定义和分类、组块识别方法、组块的标注和评测以及组块内部关系分析等几方面的研究进展进行详细的综述。最后,探讨了组块分析存在的问题并对未来的发展方向进行了展望。  相似文献   

15.
Learning to Parse Natural Language with Maximum Entropy Models   总被引:5,自引:1,他引:5  
Ratnaparkhi  Adwait 《Machine Learning》1999,34(1-3):151-175
This paper presents a machine learning system for parsing natural language that learns from manually parsed example sentences, and parses unseen data at state-of-the-art accuracies. Its machine learning technology, based on the maximum entropy framework, is highly reusable and not specific to the parsing problem, while the linguistic hints that it uses to learn can be specified concisely. It therefore requires a minimal amount of human effort and linguistic knowledge for its construction. In practice, the running time of the parser on a test sentence is linear with respect to the sentence length. We also demonstrate that the parser can train from other domains without modification to the modeling framework or the linguistic hints it uses to learn. Furthermore, this paper shows that research into rescoring the top 20 parses returned by the parser might yield accuracies dramatically higher than the state-of-the-art.  相似文献   

16.
李丽  赵文娟  樊孝忠 《计算机科学》2013,40(Z11):259-262
基本块的分析是句法分析中的重要技术,根据依存理论,提出了一种分析基本块之间的依存关系的方法。首先使用BIO标记来识别基本块,然后根据词之间的依存关系判别基本块之间的依存关系。实验表明,基本块识别的正确率和召回率分别为82.3%和78%,基本块之间依存关系识别的正确率和召回率分别为89%和90.5%。  相似文献   

17.
基于最大熵分类器的语义角色标注   总被引:24,自引:2,他引:24  
刘挺  车万翔  李生 《软件学报》2007,18(3):565-573
语义角色标注是浅层语义分析的一种可行方案.描述了一个采用最大熵分类器的语义角色标注系统,该系统把句法成分作为语义标注的基本单元,用最大熵分类器对句子中谓词的语义角色同时进行识别和分类.最大熵分类器中使用了一些有用的特征及其组合.在后处理阶段,在具有嵌套关系的结果中,只有概率最高的语义角色被保留.在预测了全部能够在句法分析树中找到匹配成分的角色以后,采用简单的后处理规则去识别那些找不到匹配成分的角色.最终在开发集和测试集上分别获得了75.49%和75.60%的F1值,此结果是已知的基于单一句法  相似文献   

18.
付斌  樊孝忠 《微机发展》2006,16(10):94-96
问句分析是自动问答系统研究中的重点和难点。在中文问句的结构特点基础上,结合机器学习及组块分析理论,对问句进行组块分析,实现了基于神经网络的问句组块识别算法,并应用于银行领域自动问答系统中。测试结果表明,对问句组块的识别能够达到比较满意的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号