共查询到19条相似文献,搜索用时 109 毫秒
1.
基于最大熵模型的汉语问句语义组块分析 总被引:1,自引:0,他引:1
问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。 相似文献
2.
一种基于历史信息的多层次中文句法分析方法 总被引:1,自引:0,他引:1
实现一个基于历史信息的多层次中文句法分析系统。采用最大熵模型进行参数学习,在每层处理过程中,优先识别出容易识别的组块,在此基础上根据更丰富的上下文信息循环进行复杂组块的识别,直至识别出根结点。通过采用给出的相关算法,实验结果表明,在宾州中文树库测试集Section271-300上得到的F值性能为83.76%(<=40 words)和80.02%(<=100 words)。 相似文献
3.
使用最大熵模型进行中文文本分类 总被引:51,自引:1,他引:51
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Baves,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法. 相似文献
4.
提出了一个汉语基本短语分析模型,将汉语短语的边界划分和短语标识分开,假定这两个过程相互独立,采用最大熵方法分别建立模型解决。最大熵模型的关键是如何选取有效的特征,文中给出了两个步骤相关的特征空间以及特征选择过程和算法。实验表明,模型的短语定界精确率达到95.27%,标注精确率达到96.2%。 相似文献
5.
复杂类问题理解是中文问答系统研究的难点,基于组块的问句分析方法将整个问句转化为若干组块,降低了问句分析的难度和复杂性。针对以含有事件(动作)信息的复杂类问题,提出基于语义组块的中文问答系统问题语义表征模型,采用语义组块的思想将问题的语义成分定义为疑问焦点块、问题主题块和问题事件块三个语义组块,对问句中的事件语义信息,建立了问题事件语义结构,将一个问句表征为一个基于语义组块的问题语义表征结构,用于问答系统的问题理解。通过序列标注学习方法实现问题语义表征中语义组块自动标注。实验结果表明:问题语义组块标注效果较好,问题语义表征模型获取了问题的关键语义信息,为语义层面上的问题理解提供基础。 相似文献
6.
《计算机科学与探索》2017,(8):1288-1295
为了使中文问答系统能够准确高效地识别问句的语义,在构建生物医学领域本体的基础上,提出了一种基于浅层句法分析和最大熵模型的语义分析算法。该算法首先对自然语言问句进行语义块识别,如果识别成功,则形成问句向量,然后利用本体进行SPARQL查询;如果识别失败,则调用最大熵模型,判断问句的语义角色。最大熵模型利用标注好语义的熟语料进行训练,提取语义组块特征,从而判断出最可能的句型,形成问句向量,然后再利用本体进行查询,获取答案。通过实验与其他方法相比,新算法具有更高的查准率和召回率。 相似文献
7.
8.
针对信息抽取领域中存在的抽取结果难以满足需要的问题,给出基于条件随机域模型的方法,以解决组块标注和实体关系抽取问题。通过定义中文组块和实体关系的标注方式,选择比较通用的《人民日报》语料,训练出效率较高的二阶模板来抽取文本中的实体关系。实验结果表明,该方法可以获得更好的抽取效果。 相似文献
9.
10.
11.
为解决句法分析任务中的块边界识别和块内结构分析问题,该文基于概念复合块描述体系进行了块分析探索。通过概念复合块与以往的基本块和功能块描述体系的对比分析,深入挖掘了概念复合块自动分析的主要难点所在,提出了一种基于“移进-归约”模型的汉语概念复合块自动分析方法。在从清华句法树库TCT中自动提取的概念复合块标注库上,多层次、多角度对概念复合块自动分析性能进行了纵向与横向评估,初步实验结果证明了该分析方法对简单概念复合块分析的有效性,为后续进行更复杂的概念复合块的句法语义分析研究打下了很好的基础。 相似文献
12.
基于SVM的组块识别及其错误驱动学习方法 总被引:1,自引:0,他引:1
给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集;最后应用该规则集对SVM的组块识别结果进行校正。实验结果表明,与单独采用SVM模型的组块识别相比,加入错误驱动学习方法后,组块识别的精确率、召回率和F值均得到了提高。 相似文献
13.
14.
15.
面向口语翻译的双语语块自动识别 总被引:1,自引:0,他引:1
语块识别是实现“基于语块处理方法”的基础 .目前 ,针对单语语块的研究成果已有很多 ,但机器翻译更需要双语相关的语块分析 .该文根据口语翻译的实际需要 ,提出了“双语语块”的概念 .并在此基础上 ,实现了一种针对并行语料库进行双语语块自动识别的新方法 .该方法将统计和规则相结合 ,可同时保证双语语块的语义特性和句法规范 .通过在一个 6万句的旅馆预定领域口语语料库中的实验可以看出 ,该方法对汉英并行语料的双语语块识别正确率可达到 80 %左右 . 相似文献
16.
为快速构建一个大规模、多领域的高质树库,提出一种基于短语功能与句法角色组块的、便于标注多层次结构的标注体系,在篇章中综合利用标点、句法结构、表述功能作为句边界判断标准,确立合理的句边界与层次;在句子中以组块的句法功能为主,参考篇章功能、人际功能,以4个性质标记、8个功能标记、4个句标记来描写句中3类5种组块,标注基本句型骨架,突出中心词信息.目前已初步构建有质量保证的千万汉字规模的浅层结构分析树,包含60余万小句的9千余条句型结构库,语料涉及百科、新闻、专利等应用领域文本1万余篇;同时,也探索了高效的标注众包管理模式. 相似文献
17.
短语复述自动抽取是自然语言处理领域的重要研究课题之一,已广泛应用于信息检索、问答系统、文档分类等任务中。而专利语料作为人类知识和技术的载体,内容丰富,实现基于中英平行专利语料的短语复述自动抽取对于技术主题相关的自然语言处理任务的效果提升具有积极意义。该文利用基于统计机器翻译的短语复述抽取技术从中英平行专利语料中抽取短语复述,并利用基于组块分析的技术过滤短语复述抽取结果。而且,为了处理对齐错误和翻译歧义引起的短语复述抽取错误,我们利用分布相似度对短语复述抽取结果进行重排序。实验表明,基于统计机器翻译的短语复述抽取在中英文上准确率分别为43.20%和43.60%,而经过基于组块分析的过滤技术后准确率分别提升至75.50%和52.40%。同时,利用分布相似度的重排序算法也能够有效改进抽取效果。 相似文献
18.
为了实现家庭服务机器人在无人干预的情况下自主地执行中文指令中蕴涵的服务任务,提出一种基于回答集的中文指令任务规划方法,将组块标注和回答集编程(answer set programming,ASP)应用于家庭服务机器人任务规划。首先通过组块标注对中文指令进行预处理,然后根据转换规则将关键信息转换为谓词集,并将它转写成ASP规则。此外,给出中文服务指令处理的各个环节的实验结果,并结合实例展示从谓词集到机器人可以执行的动作序列的映射过程。最后,通过合并部分原子动作的方式对回答集进行改进,提高了求解效率,并在任务规划时加入了成本规划,确认求得最优动作序列,该方法对促进自然人-机器人交互技术的发展有重要的意义。 相似文献
19.