首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 116 毫秒
1.
汉语组块分析是中文信息处理领域中一项重要的子任务.在一种新的结构化SVMs(support vectormachines)模型的基础上,提出一种基于大间隔方法的汉语组块分析方法.首先,针对汉语组块分析问题设计了序列化标注模型;然后根据大间隔思想给出判别式的序列化标注函数的优化目标,并应用割平面算法实现对特征参数的近似优化训练.针对组块识别问题设计了一种改进的F1 损失函数,使得F1损失值能够依据每个句子的实际长度进行相应的调整,从而能够引入更有效的约束不等式.通过在滨州中文树库CTB4 数据集上的实验数据显示,基于改进的F1 损失函数所产生的识别结果优于Hamming 损失函数,各种类型组块识别的总的F1 值为91.61%,优于CRFs(conditional random fields)和SVMs 方法.  相似文献   

2.
网络产品评论的情感分析对网络用户的日常购买行为有着重要的决策作用,因此,如何利用细粒化的处理方法提高情感分析的准确率,成为了一个热门的研究话题。针对该问题提出一种基于汉语组块分析的情感识别方法,首先依靠汉语组块分析对汽车评论语料进行细粒化的处理并提取情感标签,再结合情感词本体和支持向量机模型对情感标签进行分类,从而实现情感倾向性的判别。实验表明,采用汉语组块分析的情感分类方法相比其他的分类算法平均准确率提高了4%。因此,基于汉语组块分析的情感分类可以降低分类器的输入特征维数,并有效提高分类器的分类性能。  相似文献   

3.
基于最大熵模型的汉语问句语义组块分析   总被引:1,自引:0,他引:1  
问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。  相似文献   

4.
该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F值大小顺序处理类型冲突。实验结果表明,基于CRFs的分布式策略及错误驱动方法识别汉语组块是有效的,系统开放式测试的精确率、召回率、F值分别达到94.90%、91.00%和92.91%,好于单独的CRFs方法、分布式策略方法及其他组合方法。  相似文献   

5.
基于双语模型的汉语句法分析知识自动获取   总被引:2,自引:0,他引:2  
提出了一种汉语句法分析知识自动获取的新方法。该方法以双语语料库为基础,在双语语言模型的指导下,利用英语句法分析和双语词汇对齐得到汉语句子分析结果。根据得到的句子分析可以提取汉语组块边界信息和简单的句法分析规则。实验结果表明,自动获取的组块分析边界和已有的汉语句法分析体系取得了很好的一致性,证明了该方法的可行性和有效性。文中提出的方法充分利用现有的英语地研究成果,为汉语句法分析研究提出了一个崭新的思路。  相似文献   

6.
汉语句子的组块分析体系   总被引:26,自引:1,他引:25  
周强  孙茂松  黄昌宁 《计算机学报》1999,22(11):1158-1165
介绍了一种描述能力介于线性词序列和完整句法树表示之间的浅层句法知识描述体系-组块分析体系,并详细讨论了其中两大部分;词界块和成分组的基本内容及其自动识别算法,在此基础上,提出了一种分阶段构造汉语树库的新设想,即先构造组块库,再构造树库,进行了一系列句法分析和知识获取实验,包括1)自然识别汉语最长名词短语;2)自动获取汉语句法知识等。所有这些工作都证明了这种知识描述体系的实用性和有效性。  相似文献   

7.
基于SVM的组块识别及其错误驱动学习方法   总被引:1,自引:0,他引:1  
给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集;最后应用该规则集对SVM的组块识别结果进行校正。实验结果表明,与单独采用SVM模型的组块识别相比,加入错误驱动学习方法后,组块识别的精确率、召回率和F值均得到了提高。  相似文献   

8.
藏语句法功能组块能够很好地描述藏语句子的基本骨架,是连接句法结构与语义描述的重要桥梁。根据藏语句法特点,该文作者提出五种句法功能组块及功能组块边界识别策略。首先描述了藏语句法功能组块的基本特点和标注体系,然后在此基础上提出了一种基于条件随机域(CRFs)模型的功能组块边界识别算法。小规模训练语料的实验结果表明,该方法可以有效的识别出功能组块边界,值得进一步研究。  相似文献   

9.
该文提出汉语的块依存语法,以谓词为核心,以组块为研究对象,在句内和句间寻找谓词所支配的组块,构建句群级别的句法分析框架。这一操作可提升叶子节点的语言单位,并针对汉语语义特点进行了分析方式和分析规则上的创新,能够较好地解决微观层次的逻辑结构知识,并为中观论元知识和宏观篇章知识打好基础。该文主要介绍了块依存语法理念、表示、分析方法及特点,并简要介绍了块依存树库的构建情况。截至2020年8月,树库规模为187万字符(4万复句、10万小句),其中包含67%新闻文本和32%百科文本。  相似文献   

10.
付斌  樊孝忠 《微机发展》2006,16(10):94-96
问句分析是自动问答系统研究中的重点和难点。在中文问句的结构特点基础上,结合机器学习及组块分析理论,对问句进行组块分析,实现了基于神经网络的问句组块识别算法,并应用于银行领域自动问答系统中。测试结果表明,对问句组块的识别能够达到比较满意的效果。  相似文献   

11.
汉语块分析评测任务设计   总被引:1,自引:0,他引:1  
该文主要介绍了目前中文信息学会句法分析评测CIPS-ParsEval-2009中的三项块分析评测任务 基本块分析、功能块分析和事件描述小句识别的设计理念、判定标准和相关资源构建方法。然后给出了这三项目前的主要评测结果并对相关内容进行了简要分析。最后通过相关统计数据分析和国内外相关研究评述,总结了这三项评测任务的主要特色。  相似文献   

12.
组块分析是一种非常重要的句法分析预处理手段,通过将文本划分成一组互不重叠的片断,来达到降低句法分析的难度。提出一种基于SVM-Adaboost的中文组块分析方法,将基于线性核函数的支持向量机与Adaboost算法相结合,以基于线性核函数的SVM作为Adaboost的分量分类器,在学习过程中改变分量分类器的核参数。实验结果表明了该算法的有效性。  相似文献   

13.
汉语功能块描述了句子的基本骨架,是联结句法结构和语义描述的重要桥梁。本文提出了两种不同功能块分析模型: 边界识别模型和序列标记模型,并使用不同的机器学习方法进行了计算模拟。通过两种模型分析结果的有机融合,充分利用了两者分析结果的互补性,对汉语句子的主谓宾状四个典型功能块的自动识别性能达到了80%以上。实验结果显示,基于局部词汇语境机器学习算法可以从不同侧面准确识别出大部分功能块,句子中复杂从句和多动词连用结构等是主要的识别难点。  相似文献   

14.
基于SVM的中文组块分析   总被引:20,自引:5,他引:20  
基于SVM(support vector machine)理论的分类算法,由于其完善的理论基础和良好的实验结果,目前已逐渐引起国内外研究者的关注。和其他分类算法相比,基于结构风险最小化原则的SVM在小样本模式识别中表现较好的泛化能力。文本组块分析作为句法分析的预处理阶段,通过将文本划分成一组互不重叠的片断,来达到降低句法分析的难度。本文将中文组块识别问题看成分类问题,并利用SVM加以解决。实验结果证明,SVM算法在汉语组块识别方面是有效的,在哈尔滨工业大学树库语料测试的结果是F=88.67%,并且特别适用于有限的汉语带标信息的情况。  相似文献   

15.
汉语组块分析研究综述   总被引:2,自引:0,他引:2  
组块分析作为浅层句法分析的代表,既可以满足很多语言信息处理系统对于句法功能的需求,又可以作为子任务,在词法分析和完全句法分析以及语义分析中间架起一座桥梁,为句子进行进一步深入分析提供有力的支持,因此众多的研究将注意力集中于组块分析上。该文主要对组块的定义和分类、组块识别方法、组块的标注和评测以及组块内部关系分析等几方面的研究进展进行详细的综述。最后,探讨了组块分析存在的问题并对未来的发展方向进行了展望。  相似文献   

16.
基于多层过滤的统计机器翻译   总被引:1,自引:0,他引:1  
本文提出了一种基于多层过滤的算法。该算法主要实现从对齐的中英文句子中自动的抽取与对齐双语语块。根据不同语块具备的不同特性,采用不同的层次对其处理。该算法不同于传统的算法,它不需要对句子进行标注,句法分析,词法分析甚至不需要对汉语句子进行分词等操作。初步的实验结果表明该算法性能较好,测试的结果是:抽取语块的准确率能达到F = 0170 ,对齐语块的准确率能达到F = 0180 ;而且将此算法获得的对齐双语语块用于统计机器翻译系统,跟基于词的系统做对比,结果表明基于语块的翻译系统明显提高了翻译水平,差不多能提高10 %。  相似文献   

17.
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。  相似文献   

18.
现有功能块分析器对于不同长度和不同结构功能块的分析性能研究表明,长的结构复杂的功能块正是功能块自动分析的难点所在。由此,我们设计了新的分层次的功能块体系,并从清华句法树库TCT中自动生成了新的功能块语料库。通过对新的功能块语料库长度分布、内部结构分布分析,以及与单层次功能块语料库的相互关系的研究,我们证实了新的分层次功能块描述体系具有结构简单、长度短且分布均匀的优良特点。这些性质对功能块分析器的性能提高将会有很大的帮助。  相似文献   

19.
基于最大熵模型的组块分析   总被引:39,自引:0,他引:39  
李素建  刘群  杨志峰 《计算机学报》2003,26(12):1722-1727
采用最大熵模型实现中文组块分析的任务.首先明确了中文组块的定义,并且列出了模型中所有的组块类型和组块标注符号.组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程,我们可以把它作为一个分类问题根据最大熵模型来解决.最大熵模型的关键是如何选取有效的特征,文中给出了相关的特征选择过程和算法.最后给出了系统实现和实验结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号