首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%.  相似文献   

2.
为了构建汉语功能块自动识别系统,该文利用条件随机域模型对经过正确词语切分和词性标注处理的汉语句子进行功能块边界识别和功能信息标注处理,通过在特征提取阶段优化组合丰富的上下文特征,得到功能块识别的精确率、召回率和F1-measure值分别为85.84%、85.07%和85.45%。在此基础上,该文引入由词义聚合关系将汉语单词组织起来的《同义词词林》作为语义资源,把其中的语义信息作为特征加入到功能块的识别过程,缓解了数据稀疏以及歧义问题对识别结果造成的影响,使得上述三个性能指标分别提高到86.21%、85.31%和85.76%。  相似文献   

3.
该文基于汉语框架网,利用框架核心依存图形式化地表示一个汉语句子,使得对句子能够进行深层语义理解。为了得到框架核心依存图,需要提取其中框架元素的语义核心词。该文较为系统地描述了框架元素的语义核心词的识别问题。我们利用条件随机场模型、最大熵模型和支持向量机模型来识别框架元素语义核心词,并分别对这三种不同的模型所选的特征集进行了分析,且通过构造不同的特征模板进行对比实验,选取其中较优的特征模板和模型。结果表明,条件随机场模型具有较好的识别性能,在对其特征模板做进一步改进的基础上,识别效率也得到一定的提高。其中对简单型和复合型短语类型框架元素语义核心词识别的平均正确率分别达到了97.34%和94.03%。  相似文献   

4.
该文提出了一种基于成对比较的众包标注方法,该方法可以通过非专业人士的简单判断获取标准统一的句子难度标注结果。基于该方法,构建了基于语文教材的由18 411个句子组成的汉语句子难度语料库。面向单句绝对难度评估和句对相对难度评估两项基本的句子难易度评估任务,使用机器学习方法训练汉语句子难度评估模型,并进一步探讨了不同层面语言特征对模型性能的影响。实验结果显示,基于机器学习的分类模型可以有效预测句子的绝对难度和相对难度,最高准确率分别为63.37%和67.95%。语言特征可以帮助提升模型的性能,相比于词汇和句法层面的特征,加入汉字层面特征的模型在两项任务上的准确率最高。  相似文献   

5.
句子主干分析的主要任务是自动识别句子的主干成分。鉴于汉语句子之间成分的相关性,提出一种多层最大嫡模型,它的底层最大嫡利用句子的上下文特征识别主千词候选项,高层最大嫡利用底层最大嫡模型的计算结果,结合句子内的远距离特征和句子之间的关系,对底层最大嫡模型识别出的主干词候选集进行分析。实验证明,该模型对于简单的主干成分识别正确率较高,对训练语料有一定的依赖;随着语料规模的增长,模型性能缓慢提升。  相似文献   

6.
基于HMM的汉语文本识别后处理研究   总被引:9,自引:1,他引:8  
本文用HMM(Hidden Markov Model)描述汉语文本识别后处理,将汉语语言和单字识别这两个概率模型结合起来,以充分利用单字识别器提供的信息。语言模型的参数由语料库统计得到;单字识别模型的参数为条件概率,经理论分析,它可转化为后验概率来求解。在分析训练样本集单字识别结果的基础上,提出一种统计方法估计候选字的后验概率。HMM在脱机手写体汉语文本识别中的实验表明,后处理性能除取决于语言模型外,还取决于后验概率的精确估计。  相似文献   

7.
基于主题语言模型的句子检索算法   总被引:1,自引:0,他引:1  
提出了基于主题语言模型的汉语问答系统句子检索算法,该算法利用问答系统中特有的提问分类信息(即提问的答案语义信息)对句子初检结果进行主题聚类,通过Aspect Model将句子所属的主题信息引入到语言模型中,从而获得对句子语言模型更精确的描述 .对于初检结果的聚类,提出了"一个句子多个主题"和"一个句子一个主题"两种算法 .相对于PLSI算法的主题空间维度,提出的主题空间具有更加明确的物理意义;由于不需要迭代运算,运行速度更具优势 .对比实验的结果表明,与标准语言模型方法相比,基于主题语言模型的方法可以明显地提高汉语问答系统句子检索模块的性能 .  相似文献   

8.
基于HMM的汉语文本识别后处理琛   总被引:1,自引:0,他引:1  
本文用HMM描述汉语文本识别后处理,将汉语语言和单字识别这两个概率模型结合起来,以充分利用单字识别器提供的信息。语言模型的参数由语料库统计得到:单字识别模型的参数为条件概率,经理论分析,它要转化为后难事概率来求解。在分析训练样本集单字识别结果的基础上,提出一种统计方法估计候选字的后验概率。HMM在脱机手写体汉语文本识别中的实验表明,后处理性能除取决于语言模型外,还取决于后验概率的精确估计。  相似文献   

9.
统计和规则相结合的汉语最长名词短语自动识别   总被引:2,自引:0,他引:2  
在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法 通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息和内部结构信息构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面的不足。实验结果表明,用统计和规则相结合的方法识别最长名词短语是有效的,系统开放测试结果F值达到了90.2%。  相似文献   

10.
从现代汉语语义学角度,可将句义类型划分为简单句义、复杂句义、复合句义和多重句义4种。作为在整体上对句义结构进行描述的方式之一,句义类型识别是对汉语句子进行完整句义结构分析的重要步骤。该文基于谓词及句义类型块提出了一种汉语句义类型识别的方法,实现了4种句义类型的识别。该方法先通过句中谓词的个数进行初步识别判断出部分简单句,再对剩余的句子先用C4.5机器学习的方法得到句中谓词经过的最大句义类型块的个数,再结合句法结构中顶端句子节点进行判决,最终给出剩余句子的句义类型判定结果。实验采用BFS-CTC汉语标注语料库中10221个句子进行开集测试,句义类型的整体识别准确率达到97.6%,为基于现代汉语语义学的研究奠定了一定的技术研究基础。  相似文献   

11.
基于最大熵模型的汉语问句语义组块分析   总被引:1,自引:0,他引:1  
问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。  相似文献   

12.
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。  相似文献   

13.
藏语句法功能组块能够很好地描述藏语句子的基本骨架,是连接句法结构与语义描述的重要桥梁。根据藏语句法特点,该文作者提出五种句法功能组块及功能组块边界识别策略。首先描述了藏语句法功能组块的基本特点和标注体系,然后在此基础上提出了一种基于条件随机域(CRFs)模型的功能组块边界识别算法。小规模训练语料的实验结果表明,该方法可以有效的识别出功能组块边界,值得进一步研究。  相似文献   

14.
依存语法中由于缺乏对句法功能结构的描述机制,不能显性表达某些复杂的句法结构.修饰词的嵌套层次虽是语用学的常识,却极少有语法分析模型考虑该信息.针对这两个问题,文中提出一种融合嵌套层次的生成性二元组合语法分析模型.该模型将句子的构成看作按中心词进行的相邻语块的两两组合,应用组合关系之间的优先级和嵌套层次来约束句法树的生成.通过转换依存树库得到二元组合语法树库,然后基于该树库自动获取语法关系、优先级信息和模型参数,构建二元组合语法分析模型.实验结果表明该模型能有效提高句法分析的正确率.  相似文献   

15.
序列到序列(seq2seq)的框架可以应用到抽象语义表示(AMR)解析任务中,把AMR解析当作一个从源端句子到目标端AMR图的翻译任务。然而,以前的工作通常把源端句子表示为一个单词序列,忽略了句子内部潜藏的句法和语义角色信息。基于seq2seq框架,该文提出了一个直接而有效的融合句法和语义角色信息的AMR解析方法。实验结果表明,该文的方法在AMR英文标准数据集上取得了6.7%的显著提升。最后,该文从多个角度深入分析了源端的句法和语义角色信息是如何对AMR解析提供帮助的。分析表明,词性信息和subword技术对AMR解析性能提升的贡献最大,上层句法和语义角色信息次之。  相似文献   

16.
基于统计的汉语组块分析   总被引:16,自引:6,他引:10  
刘芳  赵铁军  于浩 《中文信息学报》2000,14(6):28-32,39
组块分析是一种大大降低句法分析难度的有效手段。本文针对汉语普遍规律,提出了一套符合汉语语言特点的汉语组块体系,并在此基础上设计实现了一种统计与错误驱动相结合的、能够分析有限层次的组块自动识别算法。实验证明,该方法能够有效地处理真实文本中的浅层分析问题,具有较好的准确率和鲁棒性。  相似文献   

17.
卢露  矫红岩  李梦  荀恩东 《自动化学报》2022,48(12):2911-2921
为快速构建一个大规模、多领域的高质树库,提出一种基于短语功能与句法角色组块的、便于标注多层次结构的标注体系,在篇章中综合利用标点、句法结构、表述功能作为句边界判断标准,确立合理的句边界与层次;在句子中以组块的句法功能为主,参考篇章功能、人际功能,以4个性质标记、8个功能标记、4个句标记来描写句中3类5种组块,标注基本句型骨架,突出中心词信息.目前已初步构建有质量保证的千万汉字规模的浅层结构分析树,包含60余万小句的9千余条句型结构库,语料涉及百科、新闻、专利等应用领域文本1万余篇;同时,也探索了高效的标注众包管理模式.  相似文献   

18.
在哈萨克语句法分析中,该文用平均感知器算法训练句法分析模型,用柱搜索算法进行解码,可以快速准确地对哈萨克语句子进行短语结构句法分析。在解析句子过程中,构建了一个双向LSTM模型,利用它提取句子中每个单词之间组成结构的信息,以预测每个单词在句法树中的句法组成部分,然后将结果作为辅助前瞻特征传递给句法分析过程。实验证明,此方法与基线模型相比,在准确率和召回率上均有提高。  相似文献   

19.
句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分词后直接进行语义分析,其颗粒度过小,容易出现词语歧义,而以句子为分析单位,则颗粒度过大,不能较好地揭示句子的语义。为此,提出一种藏文句义分割方法,通过长度介于词语和句子之间的语义块单元进行句义分割。在对句子进行分词和标注的基础上,重新组合分词结果,将句子分割为若干个语义块,并采用空洞卷积神经网络模型对语义块进行识别。实验结果表明,该方法对藏文句义分割的准确率达到94.68%。  相似文献   

20.
句法分析是自然语言处理领域中重要的基础研究问题之一。近年来,基于统计学习模型的句法分析方法研究受到了广泛关注,多种模型与算法先后被提出。从采用的学习模型和算法类型着手,该文系统地对各种主流和前沿方法进行了归纳与分类,着重对各类模型和算法的思想进行了分析和对比,并对中文句法分析的研究现状进行了综述;最后,对句法分析下一步的研究方向与趋势进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号