首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 684 毫秒
1.
四种基本统计句法分析模型在汉语句法分析中的性能比较   总被引:6,自引:1,他引:5  
统计模型的选择是统计句法分析的关键。目前句法分析常用的有四种经典统计模型—PCFG模型,基于历史模型、分层渐近式模型和头驱动模型。本文通过实验,在已有的10000句汉语树库基础上,测试了这四种经典模型在现有数据规模下各自的性能,并论述了这四种经典模型的各自特点。本文旨在通过对四种基本模型的比较研究,为具体应用中句法分析模型的选择提供参考和依据。  相似文献   

2.
郑伟发 《福建电脑》2009,25(7):71-72
本文采用中科院句法分析树库所采用的短语标记,基于汉语句子结构中上下文相关的特点,计算隐马尔科夫模型的观察概率,并利用隐马尔科夫模型构建汉语自动句法分析模型,从浅层到完全对句法进行分析;同时,利用规则集和最大成组法对划分歧义进行制约和优选。实验证明,该算法能有效地消除歧义并提高句法分析正确率。  相似文献   

3.
为了确保天线在引导数据的驱动下,速度变化更加平稳,减小对天线结构和伺服驱动的损害,对某雷达引导数据插值算法进行改进,采用样条插值算法对引导数据进行插值.通过数值模拟方法分析三种不同插值算法对雷达系统引导数据的影响,结果表明,样条插值算法能够为雷达系统提供更加合理的引导数据,实现雷达引导数据过渡的平滑性,有效保护了天线和伺服驱动系统,且样条插值算法在实际操作中易于实现,因而是一种科学有效的引导数据插值算法.  相似文献   

4.
以径向基函数散乱数据插值算法为基础,针对该算法在三维人脸建模中的不足,提出一种改进的算法:在三维人脸建模中,根据特征点和非特征点的不同特性对基函数选择不同的参数值,使通用人脸模型的调整变换更加合理;然后应用二元三次多项式插值方法对特征点局部区域进行二次平滑,避免了畸变模型的产生,最终得到完整的三维人脸模型。实验结果表明,使用该算法构建的三维人脸模型生成速度快,且具有较高的精确度。  相似文献   

5.
机器翻译中,在词性标注和句法语义分析阶段经常会遇到歧义,使用基于统计方法的词汇评分和句法语义评分就是对词性标注和句法语义分析阶段产生的歧义进行消歧,在用统计方法消歧时,经常遇到的一个现象就是数据稀疏问题,本文对词汇评分和句法语义评分遇到数据稀疏现象使用改进的Turing公式来平滑参数,给出平滑算法对词汇评分平滑的处理过程,在实验中给出语料与参数数量,正确率的实验结果。  相似文献   

6.
蒋志鹏  关毅 《自动化学报》2019,45(2):276-288
完全句法分析是自然语言处理(Natural language processing,NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record,CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析(Data-oriented parsing,DOP)和层次句法分析融合模型.在树片段抽取阶段,提出效率更高的标准树片段和局部树片段抽取算法,分别解决了标准树片段的重复比对问题,以及二次树核(Quadratic tree kernel,QTK)的效率低下问题,获得了标准树片段集和局部树片段集.基于上述两个树片段集,提出词汇和词性混合匹配策略和最大化树片段组合算法改进面向数据句法分析模型,缓解了无效树片段带来的噪声.实验结果表明,该融合模型能够有效改善中文电子病历句法分析效果,基于少量标注语料F1值能够达到目前最高的80.87%,并且在跨科室句法分析上超过Stanford parser和Berkeley parser 2%以上.  相似文献   

7.
在对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响并探讨更适合中文句法分析的BaseNP定义。利用改进的句法分析模型进行中文句法分析实验,实验结果表明,改进模型可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。  相似文献   

8.
基于隐马尔克夫模型的现代汉语句法分析   总被引:2,自引:0,他引:2  
该文以小学生语文课本7万真实语料为基础,建立了一个基于隐马尔可夫模型的现代汉语完全句法分析模型。实验结果表明,该模型具有一定的创新性和高效性,其句法分析完全正确率在封闭测试中可达92.43%,在开放测试中达到65.374%。  相似文献   

9.
基于纹理分析的保细节平滑滤波器   总被引:8,自引:0,他引:8       下载免费PDF全文
平滑去噪是图象处理中一个重要课题,但是以往在处理平滑去噪问题上一直存在平滑和保细节的矛盾。为解决此问题,提出了一种基于纹理分析和保细节平滑滤波器,该滤波器采用了多尺度多方向的模板,并利用纹理分析等手段,同时根据图象各部分特性,通过自适应地选择模板来进行平滑滤波,该算法兼顾了降噪和保细节两方面要求。实验结果证明,该算法实现简单,计算速度快,且效果优于其他几种常用的保边界平滑算法。  相似文献   

10.
基于非参数平滑的OFDM系统信道估计算法   总被引:1,自引:1,他引:0  
研究了双衰落信道下正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统中信道估计的非参数方法.提出的方案首先利用梳状导频或散布导频和最小二乘算法估计出导频处的信道频率响应并进行简单的分段线性插值,然后用基于非参数统计方法的Savitzky-Golay平滑滤波器对插值后的信道估计值进行非参数平滑.与传统信道估计算法相比,算法大大降低了信道估计的均方误差、系统的误符号率和计算复杂度,运算量仅正比于有效子载波数,且对多普勒频移具有很强的鲁棒性.数值仿真结果证明了上述结论的正确性.统计检验结果表明,该算法在最小二乘意义下是最优的.  相似文献   

11.
稀疏数据严重影响句子结构分析模型的结果, 而句法结构是语义内容和句法分析形式的结合。本文在语义结构信息标注的基础上提出了一种基于语义搭配关系的词聚类模型和算法,建立基于语义类的头驱动句子结构分析统计模型。该语言模型不但比较成功地解决了数据稀疏问题, 而且句子结构分析系统性能也有了明显的提高。句子结构分析实验结果表明,基于语义类的头驱动的句子结构分析统计模型,其召回率和精确率的值相应为88.26%和88.73%,综合指标改进了8.39%。  相似文献   

12.
一种基于优先关系的LSD分析算法   总被引:1,自引:0,他引:1  
句法分析是机器翻译中的一个重要环节,首先介绍了基于LSD方法进行句法分析的基金概念,然后提出了一种苦于优先关系的确定性LSD算法,主要讨论了基于名法结构信息优先关系和基于词谍统计优先关系的句法结构歧义消解策略,并给出了具体实现方法和复杂性分析,实验结果表明,该方法在保持确定性算法分析效率的前提下,提高了分析结果的正确率和规则应用的召回率。  相似文献   

13.
基于最大熵模型的组块分析   总被引:39,自引:0,他引:39  
李素建  刘群  杨志峰 《计算机学报》2003,26(12):1722-1727
采用最大熵模型实现中文组块分析的任务.首先明确了中文组块的定义,并且列出了模型中所有的组块类型和组块标注符号.组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程,我们可以把它作为一个分类问题根据最大熵模型来解决.最大熵模型的关键是如何选取有效的特征,文中给出了相关的特征选择过程和算法.最后给出了系统实现和实验结果.  相似文献   

14.
引入标点处理的层次化汉语长句句法分析方法   总被引:6,自引:1,他引:6  
在分析汉语标点符号用法和句法功能的基础上,本文提出了一种新的面向汉语长句的层次化句法分析方法。这种方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级来进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句或短语之间的句法关系以及子句和短语内部成分的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的一遍图表(chart)分析方法相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。  相似文献   

15.
为解决句法分析任务中的块边界识别和块内结构分析问题,该文基于概念复合块描述体系进行了块分析探索。通过概念复合块与以往的基本块和功能块描述体系的对比分析,深入挖掘了概念复合块自动分析的主要难点所在,提出了一种基于“移进-归约”模型的汉语概念复合块自动分析方法。在从清华句法树库TCT中自动提取的概念复合块标注库上,多层次、多角度对概念复合块自动分析性能进行了纵向与横向评估,初步实验结果证明了该分析方法对简单概念复合块分析的有效性,为后续进行更复杂的概念复合块的句法语义分析研究打下了很好的基础。  相似文献   

16.

In order to obtain information or discover knowledge from system logs, the first step is to perform log parsing, whereby unstructured raw logs can be transformed into a sequence of structured events. Although comprehensive studies on log parsing have been conducted in recent years, most assume that one event object corresponds to a single-line message. However, in a growing number of scenarios, one event object spans multiple lines in the log, for which parsing methods toward single-line events are not applicable. In order to address this problem, this paper proposes an automated log parsing method for multiline events (LPME). LPME finds multiline event objects via iterative scanning, driven by a set of heuristic rules derived from practice. The advantage of LPME is that it proposes a cohesion-based evaluation method for multiline events and a bottom-up search approach that eliminates the process of enumerating all combinations. We analyze the algorithmic complexity of LPME and validate it on four datasets from different backgrounds. Evaluations show that the actual time complexity of LPME parsing for multiline events is close to the constant time, which enables it to handle large-scale sample inputs. On the experimental datasets, the performance of LPME achieves 1.0 for recall, and the precision is generally higher than 0.9, which demonstrates the effectiveness of the proposed LPME.

  相似文献   

17.
Dependency parsers, which are widely used in natural language processing tasks, employ a representation of syntax in which the structure of sentences is expressed in the form of directed links (dependencies) between their words. In this article, we introduce a new approach to transition‐based dependency parsing in which the parsing algorithm does not directly construct dependencies, but rather undirected links, which are then assigned a direction in a postprocessing step. We show that this alleviates error propagation, because undirected parsers do not need to observe the single‐head constraint, resulting in better accuracy. Undirected parsers can be obtained by transforming existing directed transition‐based parsers as long as they satisfy certain conditions. We apply this approach to obtain undirected variants of three different parsers (the Planar, 2‐Planar, and Covington algorithms) and perform experiments on several data sets from the CoNLL‐X shared tasks and on the Wall Street Journal portion of the Penn Treebank, showing that our approach is successful in reducing error propagation and produces improvements in parsing accuracy in most of the cases and achieving results competitive with state‐of‐the‐art transition‐based parsers.  相似文献   

18.
This paper puts forward and explores the problem of empty element (EE) recovery in Chinese from the syntactic parsing perspective, which has been largely ignored in the literature. First, we demonstrate why EEs play a critical role in syntactic parsing of Chinese and how EEs can better benefit syntactic parsing of Chinese via re-categorization from the syntactic perspective. Then, we propose two ways to automatically recover EEs: a joint constituent parsing approach and a chunk-based dependency parsing approach. Evaluation on the Chinese TreeBank (CTB) 5.1 corpus shows that integrating EE recovery into the Charniak parser achieves a significant performance improvement of 1.29 in Fl-measure. To the best of our knowledge, this is the first close examination of EEs in syntactic parsing of Chinese, which deserves more attention in the future with regard to its specific importance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号