期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王宁葛瑞芳苑春法黄锦辉李文捷《中文信息学报》2002,16(2):1-6

在金融领域信息抽取中,公司名扮演着非常重要的角色;因此如何正确识别文本中出现的公司名是一个非常重要的研究课题。在对金融新闻文本进行了深入地分析和研究的基础上,总结出了公司名的结构特征及其上下文信息,建立了六个用于识别公司名的知识库,并提出了一个基于两次扫描过程的识别策略。初步实验结果表明,在封闭测试中实验系统公司名识别的精确率可以达到97.3% ,召回率可达89.3%;在开放测试中精确率可以达到62.8% ,召回率可达62.1%。相似文献

2.

基于小规模标注语料的机器学习方法研究 总被引：3，自引：0，他引：3

李庆中苑春法黄锦辉《计算机应用》2004,24(2):56-58

文中通过讨论机器学习和自然语言处理之间的关系,论述了语料库语言工程中机器学习的困境,概述分析了应用半监督学习的现状,研究有限样本下结合未标注样本的方法和统计学习理论框架的结合前景。相似文献

3.

基于决策树的汉语未登录词识别 总被引：13，自引：0，他引：13

秦文苑春法《中文信息学报》2004,18(1):15-20

未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词)和‘分’(分为两单字词)两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识:前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4.5算法生成了决策树。在分词程序已经识别出一定数量的未登录词而仍有分词碎片情况下使用该方法,开放测试的召回率:69.42%,正确率:40.41%。实验结果表明,基于决策树的未登录词识别是一种值得继续探讨的方法。相似文献

4.

基于搭配对的汉语形容词—名词聚类 总被引：4，自引：1，他引：4

闻扬苑春法黄昌宁《中文信息学报》2000,14(6):45-50

本文提出了一个双向分级聚类的算法同时对不同词性的词进行聚类。在聚类过程中,不同词性的词的聚类交替进行,相互影响。我们以最小描述长度的原理为基础构造了目标函数。为了减小数据稀疏的影响,又提出了修饰度的与修正距离的概念。将此算法应用于汉语形容词- 名词的搭配对,对形容词与名词进行聚类,实验结果显示该算法是有效的。相似文献

5.

基于转换的时间-事件关系映射

王昀苑春法《中文信息学报》2004,18(4):24-31

近些年来,中文时间信息抽取和处理已经变得越来越重要。然而,很少有研究者关注中文文本中事件信息所对应的时间信息的识别和分析。本文的目的就是确定文本中时间信息和事件信息之间的映射关系。区别于传统的基于规则的方法,本文采用了一种机器学习的方法—基于转换的错误驱动学习—来确定事件相应的时间表达,这种学习算法可以自动的获取和改进规则。使用训练得到的转换规则集后,系统的时间-事件映射错误率减少了9.74%,实验结果表明本系统对基于规则的方法有很好的改进效果。相似文献

6.

基于语义知识的汉语句法结构排歧 总被引：7，自引：4，他引：7

苑春法黄锦辉《中文信息学报》1999,13(1):2-9

汉语在词类这个语言层次上存在着许多歧义结构,这给汉语的自动句法分析带来了难以逾越的障碍。通过寻找汉语语义类之间可能存在的句法关系建立汉语语义关联网,这为用汉语语义知识来解决句法歧义开辟了道路。文章针对具体的汉语歧义结构研究具体的解决办法,从而减少了计算的复杂度。相似文献

7.

语料库、知识获取和句法分析 总被引：10，自引：1，他引：9

黄昌宁苑春法潘诗梅《中文信息学报》1992,6(3):3-8

在这篇文章中, 我们将介绍一种基于语料库的汉语句法分析系统。这里, 我们用以进行句法分析的知识主要是从有句法标注的语料库中获得的。我们的工作注重在知识获取及表达句法分析的算法。在句法分析中我们也用到了语法知识, 即依存语法四公理。此外, 我们也提出了依存语法第五公理来支持我们的汉语句法分析系统。相似文献

8.

基于词性和语义知识的汉语句法规则学习 总被引：6，自引：0，他引：6

苑春法陈刚黄昌宁《中文信息学报》2001,15(3):2-9

本文提出了一种汉语句法规则学习的新方法。本方法的特点是:在规则的学习和表示上都利用了词性、语义以及上下文相关的信息。它不仅能自动学习上下文无关的二元规则,而且还能自动发现词类搭配中的歧义结构,并利用语义和上下文相关信息将歧义规则在句法分析之前进行排除。实验结果表明,该方法较好地解决了汉语句法规则的自动获取及排歧问题并极大地降低了句法分析的难度,显示了很好的应用前景。相似文献

9.

基于最大熵方法的汉语词性标注 总被引：5，自引：0，他引：5

林红苑春法郭树军《计算机应用》2004,24(1):14-16

最大熵模型的应用研究在自然语言处理领域中受到关注,文中利用语料库中词性标注的上下文信息建立基于最大熵方法的汉语词性系统。研究的重点在于其特征的选取,因为汉语不同于其它语言,有其特殊性,所以特征的选取上与英语有差别。实验结果证明该模型是有效的,词性标注正确率达到97．34％。相似文献

10.

汉语时间关系抽取与计算

林静苑春法《中文信息学报》2009,23(5):62-68

时间关系普遍存在于时间和事件概念之间,为信息组织提供了一条天然的线索。该文在信息抽取和时间信息标注的基础上,研究汉语中时间与时间、事件与时间和事件与事件之间的时间关系。一方面考虑汉语文本的特点,充分抽取蕴含于语法语义层面中的时间关系;另一方面定义了与文本无关的规则,实现了不同来源信息之间的时间关系的计算。这为信息抽取结果的组织、积累和共享打下了基础,对于事件追踪、多文本摘要等方面的研究也有一定的借鉴意义。相似文献