首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 140 毫秒
1.
字标注汉语词法分析中上文和下文孰重孰轻   总被引:1,自引:0,他引:1  
汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质 都是把词法分析过程看作序列数据标注问题。上下文是统计方法中获取语言知识和解决自然语言处理中多种实际应 用问题必须依靠的资源和基础。汉语词法分析时需要从上下文获取相关的语言知识,但上文和下文是否同样重要呢? 为克服仅凭主观经验给出猜测结果的不足,对基于字标注汉语词法分析的分词、词性标注、命名实体识别这3项子任 务进行了深入研究,对比了上文和下文对各个任务性能的影响;在国际汉语语言处理评测13akcof f多种语料上进行了 封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验。结果表明,在字标注框架下,下文对汉语词法分 析性能的贡献比上文的贡献高出6个百分点以上。  相似文献   

2.
基于条件随机场的汉语动宾搭配自动识别   总被引:3,自引:1,他引:2  
该文提出一种基于机器自动学习的统计模型条件随机场的方法用于汉语动宾搭配的自动识别。实验比较了两种分词与词性标记集下的识别效果,并增加了词性筛选准则作为优化处理。在特征选择上,考察了动词次范畴特征、上下文特征以及它们之间的组合特征的不同实验结果。综合实验结果,基于树库分词和词性标记的最好结果F值是87.40%,基于北京大学标准的分词和词性标记的最好结果F值是74.70%。实验表明,条件随机场模型在词语搭配实例自动识别方面有效可行。  相似文献   

3.
为体现上下文信息对当前词汇词性的影响,在传统隐马尔可夫模型的基础上提出一种基于上下文的二阶隐马尔可夫模型,并应用于中文词性标注中。针对改进后的统计模型中由于训练数据过少而出现的数据稀疏问题,给出基于指数线性插值改进平滑算法,对参数进行有效平滑。实验表明,基于上下文的二阶隐马尔可夫模型比传统的隐马尔可夫模型具有更高的词性标注正确率和消歧率。  相似文献   

4.
基于统计和规则的常用词的兼类识别研究   总被引:1,自引:0,他引:1  
词的兼类问题是汉语词性标注中的关键问题之一.针对常用词的兼类识别进行研究,综合考虑了影响兼类词识别的不同特征,分别使用条件随机场模型、最大熵模型和k最近邻等统计方法,根据兼类词本身的特点以及其在上下文句子中的关系,同时针对不同的方法采用词语信息、词性信息等不同的特征模板分别对训练语料进行特征抽取,并取得了较好的实验结果;对一些识别结果不够理想的词又尝试了规则的方法,构建兼类词的规则,不断进行测试,改进规则库,在相同的条件下,得到了优于统计方法的实验结果.  相似文献   

5.
提出一种基于最大熵模型和投票法的汉语动词与动词搭配识别方法.该方法通过组合目标动词与候选搭配词的上下文词性信息以及关联程度的统计信息构成5种复合特征模板,然后利用最大熵方法获得它们对应搭配识别器,最后采用最好搭配识别器占优的投票法构造组合识别器.实验结果表明,同时包含上下文词性信息和统计信息的识别器优于单纯包含上下文词性信息或统计信息的识别器,但最好搭配识别器占优的组合识别器效果更佳.  相似文献   

6.
传统的条件随机场(Conditional Random Fields,CRF)方法虽然可以容纳任意长度的上下文信息且特征设计灵活, 但训练代价大、模型复杂度高,尤其在序列标注任务中由于需要计算整个标注序列的联合概率分布使其缺点更加突出。为此, 结合一种结构化方式的支持向量机(Structured Support Vector Machine,SSVM)方法,根据黏着语的构词特征和语料的上下文信 息进行词性标注研究,本模型相比传统SVM,通过附加额外的约束条件使特征函数能够拟合分布,进而用于处理不同领域内词 性标注。通过相关黏着语词性标注实验结果显示,SSVM的词性标注方法相比传统的词性标注算法,准确率有了一定的提高。  相似文献   

7.
陈笑蓉  秦进 《计算机应用》2004,24(Z2):259-261
引入上下文词、搭配两种特征作为约束,利用最大熵原理构建查错模型,以期解决词语搭配不当、长距离的语言限制等词一级的错误.基本思想是,构建词语y在上下文x上的条件概率分布模型p(y |x),查错时根据句子中的上下文x计算y出现的条件概率p(y| x)和y不出现的条件概率p( y |x).如果p(y | x)≥p( y |x),则y无误;反之,y有错.实验结果表明,该方法获得了平均91.14%的召回率和65.70%的准确率.  相似文献   

8.
关系抽取是自然语言处理和知识图谱构建的一项关键任务,现有小样本关系抽取方法无法有效获取和充分利用更多的文本语义信息,为此给出一个基于语义增强的多特征融合关系抽取方法(SMPC)并应用于小样本任务中。该方法构建了一个融合位置、词性和句法依存等信息的分段卷积神经网络最大化表示语义特征,并从维基百科中抽取细粒度语义信息,将其融入词嵌入,提高模型上下文共性学习。在两种场景下对不同基线方法进行实验,分别取得最高4%和10%的准确率提升,证明了该方法的有效性。  相似文献   

9.
针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,该文提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务。并在Bakeoff2007的PKU语料上进行了封闭测试,通过对该方法和传统分步处理的分词、词性标注、命名实体识别的性能进行大量对比实验,结果表明,三位一体字标注方法的分词、词性标注、命名实体识别的性能都有不同程度的提升,汉语分词的F值达到了96.4%,词性标注的标注精度达到了95.3%,命名实体识别的F值达到了90.3%,这说明三位一体字标注的汉语词法分析性能更优。  相似文献   

10.
一个汉语短语自动界定模型   总被引:8,自引:1,他引:7  
周强 《软件学报》1996,7(A00):315-322
本文提出了一个汉语短语自动界定模型,它通过基于统计的自动界定处理,利用通过错误驱动自动学习而得到的调整规则界定情况局部调整,利用人工总结的全局调整规则进行精调整等3个处理阶段,可以较邹地确定一句经过正确切分和词性注处理的汉语句子中不同短语的边界位置,从而为时一步的汉语短语自动划分和标注处理打下了良好的基础,对1000多句句子的实验结果表明,模型的界定正确率达到了96.33%(封闭测试)、94.55  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号