首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 339 毫秒
1.
组块分析是一种非常重要的句法分析预处理手段,通过将文本划分成一组互不重叠的片断,来达到降低句法分析的难度。提出一种基于SVM-Adaboost的中文组块分析方法,将基于线性核函数的支持向量机与Adaboost算法相结合,以基于线性核函数的SVM作为Adaboost的分量分类器,在学习过程中改变分量分类器的核参数。实验结果表明了该算法的有效性。  相似文献   

2.
基于语义组块分析的汉语语义角色标注   总被引:1,自引:1,他引:0  
近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的“句法分析——语义角色识别——语义角色分类”,而是一种简化的“语义组块识别——语义组块分类”流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。  相似文献   

3.
基于统计的汉语组块分析   总被引:16,自引:6,他引:10  
刘芳  赵铁军  于浩 《中文信息学报》2000,14(6):28-32,39
组块分析是一种大大降低句法分析难度的有效手段。本文针对汉语普遍规律,提出了一套符合汉语语言特点的汉语组块体系,并在此基础上设计实现了一种统计与错误驱动相结合的、能够分析有限层次的组块自动识别算法。实验证明,该方法能够有效地处理真实文本中的浅层分析问题,具有较好的准确率和鲁棒性。  相似文献   

4.
基于神经元网络的汉语短语边界识别   总被引:4,自引:2,他引:4  
短语边界的识别是浅层句法分析或组块分析的基础,对真实文本的处理具有重要意义。在一个含有64426词的汉语树库的支持下,本文设计并实现了基于神经元网络的汉语短语边界自动识别模型。初步实验结果显示,该模型的界定准确率为93.24%(封闭测试)和92.56%(开放测试)。  相似文献   

5.
基于SVM的组块识别及其错误驱动学习方法   总被引:1,自引:0,他引:1  
给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集;最后应用该规则集对SVM的组块识别结果进行校正。实验结果表明,与单独采用SVM模型的组块识别相比,加入错误驱动学习方法后,组块识别的精确率、召回率和F值均得到了提高。  相似文献   

6.
Co-training机器学习方法在中文组块识别中的应用   总被引:6,自引:0,他引:6  
采用半指导机器学习方法co2training 实现中文组块识别。首先明确了中文组块的定义,co-training 算法的形式化定义。文中提出了基于一致性的co-training 选取方法将增益的隐马尔可夫模型(Transductive HMM) 和基于转换规则的分类器(fnTBL) 组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,F 值分别达到了85134 %和83141 % ,分别提高了2113 %和7121 %。  相似文献   

7.
介词结构在汉语文本中出现频率很高,正确识别介词结构边界对句法分析、语音合成中的韵律短语划分有着重要意义。该文较为系统地探讨了汉语中常用介词的边界识别问题。利用支持向量机SVM模型,基于输出概率而不是简单的二分法来选择正确的后边界。探讨了不同的特征选择,并尝试加入语义信息等不同特征组合以提高识别准确率。对常用的68个介词进行边界识别实验,5折交叉验证的准确率达到90.95%,优于前人的识别结果。  相似文献   

8.
文本分类是文本挖掘的一个重要组成部分,是信息搜索领域的一项重要研究课题。该文提出一种基于文章标题信息的汉语自动文本分类方法,在HNC理论的领域概念框架下,通过标题信息所蕴涵的领域信息词语激活对应的HNC领域,实现文本的自动分类。实验证明,该方法与采用SVM算法进行文本分类的方法比较,测试速度和分类平均准确率明显提高。  相似文献   

9.
汉语比较句识别研究   总被引:2,自引:0,他引:2  
比较是常见的表达方式,提取事物之间的比较关系是一项新颖而有实用价值的研究。识别自然语言中的比较句,是提取比较关系的一个重要步骤。目前还没有针对汉语比较句的自动识别研究,语言学上比较句的哪些特征能够应用到自动识别上来是一个亟待研究的问题。该文讨论了汉语比较句的范畴、外延和特征,定义了汉语比较句识别的任务,并提出用SVM分类器将汉语句子分为“比较”和“非比较”两类。该文比较了比较句的语言学特征和统计特征,包括特征词、序列模式等在分类中的作用。实验结果表明:基于类序列规则的SVM分类器能够有效地识别汉语比较句,效果优于传统基于词的文本分类。  相似文献   

10.
基于最大熵模型的汉语问句语义组块分析   总被引:1,自引:0,他引:1  
问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。  相似文献   

11.
隐马尔科夫支持向量机(HMSVM)是一种新颖的结构化支持向量机模型,该模型在序列标注学习任务比如英文组块分析中的有效性已经被证明,将该模型用于中文浅层句法分析识别任务,实验结果表明,该模型获得了较好的准确率和召回率。  相似文献   

12.
Phrase pattern recognition (phrase chunking) refers to automatic approaches for identifying predefined phrase structures in a stream of text. Support vector machines (SVMs)-based methods had shown excellent performance in many sequential text pattern recognition tasks such as protein name finding, and noun phrase (NP)-chunking. Even though they yield very accurate results, they are not efficient for online applications, which need to handle hundreds of thousand words in a limited time. In this paper, we firstly re-examine five typical multiclass SVM methods and the adaptation to phrase chunking. However, most of them were inefficient when the number of phrase types scales. We thus introduce the proposed two new multiclass SVM models that make the system substantially faster in terms of training and testing while keeps the SVM accurate. The two methods can also be applied to similar tasks such as named entity recognition and Chinese word segmentation. Experiments on CoNLL-2000 chunking and Chinese base-chunking tasks showed that our method can achieve very competitive accuracy and at least 100 times faster than the state-of-the-art SVM-based phrase chunking method. Besides, the computational time complexity and the time cost analysis of our methods were also given in this paper.  相似文献   

13.
中文Base NP识别: 错误驱动的组合分类器方法   总被引:2,自引:0,他引:2  
本文采用一种新的错误驱动的组合分类器方法来实现中文Base NP识别。本文首先对中文和英文Base NP识别技术现状进行了简要分析和概述,明确了中文Base NP识别的任务,然后,基于前人的工作提出了错误驱动的组合分类器方法,其基本思路是: 通过对比两种不同类型的分类器—基于转化的方法和条件随机场方法的分类结果,再利用支持向量机学习其中的错误规律,对两分类器产生的不同结果进行纠错,从而达到提高系统整体性能的效果。我们在宾州中文树库转化得到的Base NP语料集上进行了Base NP识别交叉验证实验,与单独使用基于转化的方法、条件随机场方法以及支持向量机方法相比较,错误驱动的组合分类器方法的实验结果都有所提高,最佳结果F值达到了89.72%,相对于文中Base NP识别的其他方法,最大提高幅度为2.35%。  相似文献   

14.
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。  相似文献   

15.
马忠宝  刘冠蓉 《微机发展》2006,16(11):70-72
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。  相似文献   

16.
与基于Voting方法的组合分类器相比,提出基于Stacking算法的多分类器组合方法.通过构造一个两层的叠加式框架结构,将4种分类器(fnTBL,SNoW,SVM,MBL)进行了组合,并融合各种可能的上下文信息作为各层分类器的输入特征向量,在中文组块识别中取得了较好的效果.实验结果表明.组合后的分类器无论在准确率还是召回率上都有所提高,在哈尔滨工业大学树库语料的测试下达到了F=93.64的结果.  相似文献   

17.
汉语功能块描述了句子的基本骨架,是联结句法结构和语义描述的重要桥梁。本文提出了两种不同功能块分析模型: 边界识别模型和序列标记模型,并使用不同的机器学习方法进行了计算模拟。通过两种模型分析结果的有机融合,充分利用了两者分析结果的互补性,对汉语句子的主谓宾状四个典型功能块的自动识别性能达到了80%以上。实验结果显示,基于局部词汇语境机器学习算法可以从不同侧面准确识别出大部分功能块,句子中复杂从句和多动词连用结构等是主要的识别难点。  相似文献   

18.
针对当前医院护理不良事件上报的内容多为非结构化文本数据,缺乏合理明确的分类,人工分析难度大、人为因素多、存在漏报瞒报、人为降低事件级别等问题,提出一种基于字符卷积神经网络CNN与支持向量机SVM的中文护理不良事件文本分类模型。该模型通过构建字符级文本词汇表对文本进行向量化,利用CNN对文本进行抽象的特征提取,并用SVM分类器实现中文文本分类。与传统基于TF-IDF的SVM、随机森林等多组分类模型进行对比实验,来验证该模型在中文护理不良事件文本分类中的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号