期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李国臣王瑞波李济洪《计算机研究与发展》2010,47(2):336-343

汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%. 相似文献

2.

分层次的汉语功能块描述库构建分析

陈亿周强宇航《中文信息学报》2008,22(3):24-32

现有功能块分析器对于不同长度和不同结构功能块的分析性能研究表明,长的结构复杂的功能块正是功能块自动分析的难点所在。由此,我们设计了新的分层次的功能块体系,并从清华句法树库TCT中自动生成了新的功能块语料库。通过对新的功能块语料库长度分布、内部结构分布分析,以及与单层次功能块语料库的相互关系的研究,我们证实了新的分层次功能块描述体系具有结构简单、长度短且分布均匀的优良特点。这些性质对功能块分析器的性能提高将会有很大的帮助。相似文献

3.

汉语比较句识别研究 总被引：2，自引：0，他引：2

黄小江万小军杨建武肖建国《中文信息学报》2008,22(5):30-38

比较是常见的表达方式,提取事物之间的比较关系是一项新颖而有实用价值的研究。识别自然语言中的比较句,是提取比较关系的一个重要步骤。目前还没有针对汉语比较句的自动识别研究,语言学上比较句的哪些特征能够应用到自动识别上来是一个亟待研究的问题。该文讨论了汉语比较句的范畴、外延和特征,定义了汉语比较句识别的任务,并提出用SVM分类器将汉语句子分为“比较”和“非比较”两类。该文比较了比较句的语言学特征和统计特征,包括特征词、序列模式等在分类中的作用。实验结果表明:基于类序列规则的SVM分类器能够有效地识别汉语比较句,效果优于传统基于词的文本分类。相似文献

4.

基于语音配列的汉语方言自动辨识 总被引：9，自引：1，他引：9

顾明亮沈兆勇《中文信息学报》2006,20(5):79-84

本文首先讨论了汉语方言辨识的依据及特征选取的基本原则,并由此导出了区间差分倒谱特征。然后利用GMM符号发生器和N元语言模型及ANN建立了一个方言辨识系统,该系统与传统的语种识别系统相比,具有以下特点:第一,系统不需要标注好的语音库,从而降低了汉语方言语音库建设的劳动强度和要求;第二, GMM符号化器计算量远远低于音素辨识器,从而提高了方言辨识速度,便于今后实时处理。第三,具有更高的辨识效果和更好的容错性。汉语普通话和三种方言辨识实验结果表明,系统平均辨识率可以达到83.8%。相似文献

5.

连续汉语语音识别技术

张文国《自动化博览》1997,(6):21-22

计算机能听懂人的语言，这意味着人工智能时代已向我们走来c北京中自汉王科技公司在IBM支持下，基于ViaVoice自行开发的一种最新语音识别软件与手写输入系统——汉王听写系统，它把IBM研究开发的语音识别核心技术与汉三优秀的手写汉字识别输入系统完美的集成在一起．形成了一个优势互补的非键盘输入系统。成为一种简单方便，人人会用的文字录入工具。这不仅提高了汉字输入速度，而且使讲话人更自然、更流畅地表达自己的意愿。汉王听写系统，具有汉语语音听写输入、语音命令、编辑、打印功能，基于中文自身的特点，同音字多，有声调、词… 相似文献

6.

汉语自动分词技术内幕

王华勇《软件工程师》2000,(7):27-29

本文阐述了自动分词技术的理论与技术创新点,提出了一个适用于中英文WWW搜索引擎的分词器的实现,它具有高速的特点,同时具有较好的切分精度。该分词技术能对外提供基于全文和关键字检索的接口,并采用一系列的策略来提高切分速度,优化结构。它已应用于“中英文WWW搜索引擎系统”中,应用效果较好。相似文献

7.

汉语自动分词方法 总被引：26，自引：0，他引：26

下载免费PDF全文

殷建平《计算机工程与科学》1998,20(3):60-66

本文给出了为汉语自动分词而提出了机械匹配法，特征词库法，约束矩法，语法２分析法和理解切法。相似文献

8.

汉语普通话语音合成语料库TH-CoSS的建设和分析 总被引：6，自引：0，他引：6

蔡莲红崔丹丹蔡锐《中文信息学报》2007,21(2):94-99

本文介绍了汉语语音合成语料库TH-CoSS的建设和分析。本语料库包括男女声朗读语句约2万个。语料库分为四个部分: TTS系统建库用语句、TTS系统测试用语句、特殊语调语句和特殊音节组。语料设计考虑了语料的平衡和音段、韵律信息的丰富。语料库中除了文本、语音数据外,还带有音段切分标志,标注文件采用XML格式。为了方便语音分析与开发,特研制了标注软件。本文还给出了语境特征对语音韵律影响的分析结果。相似文献

9.

汉语块分析评测任务设计 总被引：1，自引：0，他引：1

周强李玉梅《中文信息学报》2010,24(1):123-129

该文主要介绍了目前中文信息学会句法分析评测CIPS-ParsEval-2009中的三项块分析评测任务基本块分析、功能块分析和事件描述小句识别的设计理念、判定标准和相关资源构建方法。然后给出了这三项目前的主要评测结果并对相关内容进行了简要分析。最后通过相关统计数据分析和国内外相关研究评述,总结了这三项评测任务的主要特色。相似文献

10.

语义信息与CRF结合的汉语功能块自动识别

刘海霞黄德根《中文信息学报》2011,25(5):53-60

为了构建汉语功能块自动识别系统,该文利用条件随机域模型对经过正确词语切分和词性标注处理的汉语句子进行功能块边界识别和功能信息标注处理,通过在特征提取阶段优化组合丰富的上下文特征,得到功能块识别的精确率、召回率和F1-measure值分别为85.84%、85.07%和85.45%。在此基础上,该文引入由词义聚合关系将汉语单词组织起来的《同义词词林》作为语义资源,把其中的语义信息作为特征加入到功能块的识别过程,缓解了数据稀疏以及歧义问题对识别结果造成的影响,使得上述三个性能指标分别提高到86.21%、85.31%和85.76%。相似文献

11.

基于HMSVM模型的中文浅层句法分析

王仲华卢娇丽付继宗《电脑开发与应用》2013,(2):30-32

隐马尔科夫支持向量机(HMSVM)是一种新颖的结构化支持向量机模型,该模型在序列标注学习任务比如英文组块分析中的有效性已经被证明,将该模型用于中文浅层句法分析识别任务,实验结果表明,该模型获得了较好的准确率和召回率。相似文献

12.

汉语概念复合块的自动分析

仵永栩吕学强周强关晓炟《中文信息学报》2016,30(2):1-11

为解决句法分析任务中的块边界识别和块内结构分析问题,该文基于概念复合块描述体系进行了块分析探索。通过概念复合块与以往的基本块和功能块描述体系的对比分析,深入挖掘了概念复合块自动分析的主要难点所在,提出了一种基于“移进-归约”模型的汉语概念复合块自动分析方法。在从清华句法树库TCT中自动提取的概念复合块标注库上,多层次、多角度对概念复合块自动分析性能进行了纵向与横向评估,初步实验结果证明了该分析方法对简单概念复合块分析的有效性,为后续进行更复杂的概念复合块的句法语义分析研究打下了很好的基础。相似文献

13.

汉语介词短语的自动识别

干俊伟黄德根《中文信息学报》2005,19(4):18-24

本文运用规则和统计相结合的方法构造了一个汉语介词短语识别算法。首先,根据介词和介词短语右边界组成的搭配模板自动提取可信搭配关系,并用这些搭配关系对介词短语进行识别。之后,用基于词性的三元边界统计模型和规则相结合的方法识别其它未处理的介词短语。通过对含有7323 个介词短语的语料作交叉测试,精确率达到87148 % ,召回率达到87127 %。相似文献

14.

现代汉语介词短语边界识别研究 总被引：2，自引：1，他引：2

王立霞孙宏林《中文信息学报》2005,19(3):81-87

汉语中介词结构右边界歧义是汉语结构歧义中最突出的现象之一,这给汉语的句法分析带来了很大的困难。本文研究的目标是:在不引进复杂的句法分析的前提下实现介词短语边界的自动识别,期望其作为句法分析预处理的一部分为句法分析提供一定的帮助。本文对汉语中最常用的介词“在”进行了实验,封闭测试和开放测试的准确率分别达到97 %和93 %。与前人的同类研究相比,准确率有了较大的提高,解决了过去遗留的一些问题。相似文献

15.

中心词驱动的汉语统计句法分析模型的改进

何亮戴新宇周俊生陈家骏《中文信息学报》2008,22(4):3-9

在对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响并探讨更适合中文句法分析的BaseNP定义。利用改进的句法分析模型进行中文句法分析实验,实验结果表明,改进模型可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。相似文献

16.

自动获取汉语词语搭配 总被引：4，自引：0，他引：4

王素格杨军玲张武《中文信息学报》2006,20(6):33-39

作为一种词汇现象,词语搭配在自然语言处理的许多领域具有重要的应用。本文对4种词语相关性度量和3种词语结构分布度量分别进行了比较分析,并提出了一种基于互信息与熵融合的获取词语搭配的方法。实验结果表明:在同现频率较高情况下,互信息、Cosine系数、x2测试和似然比测试4种相关性度量对搭配判定有大致相同的效果;在度量词语的结构分布方面,熵要优于方差和离散度。本文所提方法依赖度量指标少,阈值容易选取,且与其他已有的方法具有同等效果。相似文献