期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

党政法周强《中文信息学报》2005,19(3):22-28

不同标注体系的树库之间的相互转换是计算语言学研究的重要内容之一。本文在总结国内外几种树库标注体系及相互转换实践的基础上,结合清华汉语树库(Tsinghua Chinese Treebank ,简称TCT) 标注体系的特点,提出了一种将TCT从短语结构转换成依存结构(Dependency Structure) 的算法。这种算法充分利用了TCT具有的功能、结构的双重标记,转换得到的依存树不仅包含了各个节点之间相互依存的层次关系,更包含了相互依存的两个节点的具体的依存关系类型。我们对转换的效果进行了抽样评估,准确率可以达到97137 %。相似文献

2.

短语结构树库向依存结构树库转化研究

李正华车万翔刘挺《中文信息学报》2008,22(6):14-19

汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库Penn Chinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量经转化后的树库后,依存句法分析器的性能有所提高;但加入大量树库后,性能反而下降。经过细致分析,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。相似文献

3.

短语结构树库向句式结构树库的自动转换研究

张引兵宋继华彭炜明赵亚伟宋天宝《中文信息学报》2018,32(5):31-41

该文从短语结构和句式结构的区别与联系入手,设计了一种将短语结构自动转换为句式结构的算法。并以清华短语结构树库(TCT)为测试语料,实现了将大规模短语结构语料向句式结构语料的转换。最后,搭建了一套可扩展的可视化系统,用于不同句法结构语料的可视化查看。这一研究不仅实现了两种结构之间的初步转换,而且极大地丰富了汉语句本位图解树库的语料规模,并为汉语句本位图解树库的后续应用研究奠定了基础。相似文献

4.

中文复杂名词短语依存句法分析 总被引：1，自引：0，他引：1

陈永波汤昂昂姬东鸿《计算机应用研究》2015,32(6)

针对中文复杂名词短语的依存句法分析进行了研究,提出简单边优先与SVM相结合的依存句法分析算法.算法的每一步迭代根据边的特征于每一对相邻子树之间的无向边中选择最优者,然后利用支持向量机根据边两端子树的特征确定该边的方向,即得到两棵子树的中心语之间的依存关系.实验证明对于复杂名词短语的依存句法分析,算法准确率比简单边优先算法有明显提高,且优于基于最大生成树算法的中文句法分析器;算法分析效率更高,时间复杂度为O(n2 log n). 相似文献

5.

依存树到串模型中引入双语短语的三种方法

谢军刘群《中文信息学报》2014,28(2):44-50

依存树到串模型使用基于HDR片段的翻译规则。HDR片段是由中心词及其所有依存节点组成的树片段。这种翻译规则可以较好地捕捉语言中的句子模式和短语模式等组合现象,但在捕捉非组合现象(如习惯用语或固定搭配)方面存在不足。这类非组合现象易于由短语捕捉。为了更好地改善依存树到串模型的性能,本文提出了三种引入双语短语的方法,分别为引入句法短语、引入泛化句法短语及引入非句法短语。实验结果表明,同时使用句法短语、泛化句法短语及非句法短语时,可以将依存树到串模型的性能显著提高约1.0 BLEU值。相似文献

6.

借助汉-越双语词对齐语料构建越南语依存树库

李发杰余正涛郭剑毅李英周兰江《中文信息学报》2015,29(6):69-74

由于对越南语的研究工作相对较少,因此还没有建立规模相对较大的依存树库。相对于已经拥有了形态丰富、语料成熟的汉语,越南语的依存句法分析要困难得多,所以该文提出了一种借助汉-越双语词对齐语料构建越南语依存树库的方法。首先对汉语-越南语句子对进行词对齐处理,然后对汉语句子进行依存句法分析。最后结合越南语本身的语言特点和有关的语法规则将汉语的依存关系通过汉-越双语词对齐关系映射到越南语句子中,从而生成越南语的依存树库。实验表明,该方法简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间。实验结果表明,该方法相比采用机器学习的方法准确率明显提高。相似文献

7.

基于高阶词汇依存的短语结构树重排序模型

下载免费PDF全文

王志国宗成庆《软件学报》2012,23(10):2628-2642

在句法分析中,已有研究工作表明,词汇依存信息对短语结构句法分析是有帮助的,但是已有的研究工作都仅局限于使用一阶的词汇依存信息.提出了一种使用高阶词汇依存信息对短语结构树进行重排序的模型,该模型首先为输入句子生成有约束的搜索空间(例如,N-best句法分析树列表或者句法分析森林),然后在约束空间内获取高阶词汇依存特征,并利用这些特征对短语结构候选树进行重排序,最终选择出最优短语结构分析树.在宾州中文树库上的实验结果表明,该模型的最高F1值达到了85.74%,超过了目前在宾州中文树库上的最好结果.另外,在短语结构分析树的基础上生成的依存结构树的准确率也有了大幅提升. 相似文献

8.

基于树库的汉语依存句法分析

刘海涛赵怿怡《模式识别与人工智能》2009,22(1):17-21

旨在探索利用语言学手段来提高句法分析精度的可能性.采用MaltParser和自建的汉语依存树库进行相关汉语依存句法分析实验.通过对句法分析结果的分析,找出影响句法分析精度的主要因素,并据此对树库中处理某些语言结构的方式进行修改.然后再对得到的句法分析数据进行进一步分析,以确定所用方法的有效性.结果表明,无标记依存句法分析精度提高了5.5%,有标记依存句法分析精度提高了7.5%. 相似文献

9.

基于短语及依存的标注规则和短语识别算法研究

刘广涂刚李政刘译键《中文信息学报》2024,38(2):15-24

目前,自然语言处理大多是借助于分词结果进行句法依存分析,主要采用基于监督学习的端对端模型。该方法主要存在两个问题,一是标注体系繁多,相对比较复杂;二是无法识别语言嵌套结构。为了解决以上问题,该文提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时引入短语窗口模型。该标注规则以短语为最小单位,把句子划分为7类可嵌套的短语类型,同时标示出短语间的句法依存关系;短语窗口模型借鉴了计算机视觉领域目标检测的思想,检测短语的起始位置和结束位置,实现了对嵌套短语及句法依存关系的同步识别。实验结果表明,在CPWD数据集上,短语窗口模型比传统端对端模型F₁值提升超过1个百分点。相应的方法应用到了CCL2018的中文隐喻情感分析比赛中,在原有基础上F₁值提升了1个百分点以上,取得第一名成绩。相似文献

10.

基于树库转换的藏语依存句法树库构建方法

周毛克龙从军赵小兵李林霞《中文信息学报》2022,36(7):77-85+97

构建藏语依存树库是实现藏语句法分析的重要基础,对藏语本体研究和信息处理具有重要价值。基于此,该文提出了一种基于树库转换的藏语依存树库构建方法。该方法首先扩充了前期构建的藏语短语结构树库,然后根据藏语短语结构树和依存树的特征设计树库转换规则,实现藏语短语结构树到依存结构树的初步转换,最后对自动转换结果进行人工校验,得到了2.2万句藏语依存树。为了对转换结果做出量化评价,该文抽取了依存树库中5%的依存树,对其依存关系进行校验和统计,最终依存关系的准确率达到89.36%,中心词的准确率达到92.09%。此外,该文使用基于神经网络的句法分析模型验证了依存树库的有效性。在该模型上,UAS值和LAS值分别达到83.62%和81.90%。研究证明,使用半自动的树库转换方法能够有效地完成藏语依存树库构建工作。相似文献

11.

如何在越南留住技术人员

Bill Roberts 《软件》2008,(9)

随随着电子产品的边际利润越来越低,很多OEM厂商很自然地开始寻找下一个成本低廉的地区进行生产。越南,就是诸多备选地区中广受关注的一个,虽然亚洲这些具有成本优势的地区备具优缺点。在四月举行的季度技术前瞻论坛上,TFI高级经济学家Matthew Chanoff推荐在越南进行外相似文献

12.

A lexicon for Vietnamese language processing

Thị Minh Huyền Nguyễn Laurent Romary Mathias Rossignol Xuân Lương Vũ 《Language Resources and Evaluation》2006,40(3-4):291-309

相似文献

13.

Ensuring annotation consistency and accuracy for Vietnamese treebank

Quy T. Nguyen Yusuke Miyao Ha T. T. Le Nhung T. H. Nguyen 《Language Resources and Evaluation》2018,52(1):269-315

Treebanks are important resources for researchers in natural language processing. They provide training and testing materials so that different algorithms can be compared. However, it is not a trivial task to construct high-quality treebanks. We have not yet had a proper treebank for such a low-resource language as Vietnamese, which has probably lowered the performance of Vietnamese language processing. We have been building a consistent and accurate Vietnamese treebank to alleviate such situations. Our treebank is annotated with three layers: word segmentation, part-of-speech tagging, and bracketing. We developed detailed annotation guidelines for each layer by presenting Vietnamese linguistic issues as well as methods of addressing them. Here, we also describe approaches to controlling annotation quality while ensuring a reasonable annotation speed. We specifically designed an appropriate annotation process and an effective process to train annotators. In addition, we implemented several support tools to improve annotation speed and to control the consistency of the treebank. The results from experiments revealed that both inter-annotator agreement and accuracy were higher than 90%, which indicated that the treebank is reliable. 相似文献

14.

A Vietnamese adjective emotion dictionary based on exploitation of Vietnamese language characteristics

Vo Ngoc Phu Vo Thi Ngoc Chau Vo Thi Ngoc Tran Nguyen Duy Dat 《Artificial Intelligence Review》2018,50(1):93-159

Emotion classification is used in many commercial applications and research applications. The semantic classification models (or sentiment classification methods) are based on the vocabulary of the emotion dictionary being studied and being used very much to this day. In this study, a Vietnamese sentiment dictionary includes Vietnamese terms (Vietnamese nouns, Vietnamese verbs, Vietnamese adjectives, etc.) which the valences (and polarities) are calculated by using Ochiai measure through Google search engine and many Vietnamese adjective phrases which the valences (and polarities) are identified based on Vietnamese language characteristics. The Vietnamese adjectives often bear emotion which values (or semantic scores) are not fixed and are changed when they appear in different contexts of these phrases. Therefore, if the Vietnamese adjectives bring sentiment and their semantic values (or their sentiment scores) are not changed in any context, then the results of the emotion classification are not high accuracy. We propose many rules based on Vietnamese language characteristics to determine the emotional values of the Vietnamese adjective phrases bearing sentiment in specific contexts. Our Vietnamese sentiment adjective dictionary is widely used in applications and researches of the Vietnamese semantic classification. 相似文献

15.

Automatic Speech Recognition for Under-Resourced Languages: Application to Vietnamese Language

《IEEE transactions on audio, speech, and language processing》2009,17(8):1471-1482

This paper presents our work in automatic speech recognition (ASR) in the context of under-resourced languages with application to Vietnamese. Different techniques for bootstrapping acoustic models are presented. First, we present the use of acoustic–phonetic unit distances and the potential of crosslingual acoustic modeling for under-resourced languages. Experimental results on Vietnamese showed that with only a few hours of target language speech data, crosslingual context independent modeling worked better than crosslingual context dependent modeling. However, it was outperformed by the latter one, when more speech data were available. We concluded, therefore, that in both cases, crosslingual systems are better than monolingual baseline systems. The proposal of grapheme-based acoustic modeling, which avoids building a phonetic dictionary, is also investigated in our work. Finally, since the use of sub-word units (morphemes, syllables, characters, etc.) can reduce the high out-of-vocabulary rate and improve the lack of text resources in statistical language modeling for under-resourced languages, we propose several methods to decompose, normalize and combine word and sub-word lattices generated from different ASR systems. The proposed lattice combination scheme results in a relative syllable error rate reduction of 6.6% over the sentence MAP baseline method for a Vietnamese ASR task. 相似文献

16.

Color Space Conversion for Digital Camera

Li Xinwu 《数据采集与处理》2008,23(5)

相似文献

17.

变频电源控制方式的讨论 总被引：2，自引：0，他引：2

蒋军《自动化技术与应用》2007,26(3):136-139

对目前存在变频器的变频电源控制方式进行讨论，分析各种方式的优缺点，并给出变频电源不同控制方式的技术参数，以便工程技术人员更好地选型和设计。相似文献

18.

数码相机色空间转换方法 总被引：1，自引：0，他引：1

黎新伍《数据采集与处理》2008,23(5)

提出了一种基于多项式拟合和Neugebauer方程的数码相机色空间转换新模型。首先根据数码相机的呈色原理,模型采用标准色靶作为实验样本,并以彩色梯尺区色块代表整个色空间用以推导模型。随后重新解释Neugebauer方程的参数含意,使原本只适用于印刷网点图像的Neugebauer方程也适用于数码相机的色空间转换。最后结合多项式拟合和Neugebauer方程,分单色、双色和三色逐步导出数码图像的色彩修正方程。实验结果表明,与目前具有较高转换精度的主流模型比较,本文模型能够明显提高转换精度。相似文献

19.

Bezier曲线与Said—Ball曲线的递归转换算法 总被引：2，自引：0，他引：2

陈凌钧骆岩林等《计算机辅助设计与图形学学报》2001,13(3):264-266

根据Bezier曲线与Said-Ball曲线的统一表示,给出了Bezier曲线与Said-Ball曲线之间相互转换的递归算法。相似文献

20.

Vietnamese treebank construction and entropy-based error detection

Phuong-Thai Nguyen Anh-Cuong Le Tu-Bao Ho Van-Hiep Nguyen 《Language Resources and Evaluation》2015,49(3):487-519

相似文献