期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

于江德睢丹樊孝忠《山东大学学报(工学版)》2010,40(5):117-122

近年来基于字的词位标注方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线。该方法中特征模板选择至关重要,采用四词位标注集,使用条件随机场模型进一步研究基于字的词位标注汉语分词技术,在第三届和第四届国际汉语分词评测Bakeoff语料上进行封闭测试,并对比了不同特征模板集对分词性能的影响。实验表明采用的特征模板集:TMPT-10′较传统的特征模板集分词性能更好。相似文献

2.

汉语自动分词研究综述 总被引：12，自引：0，他引：12

骆正清陈增武《浙江大学学报(工学版)》1997,31(3):306-312

本文对汉语自动分词的方法进行了概述，并在考察分词精度和分词知识的基础上，提出了一种改进的机械分词方法相似文献

3.

汉语分词技术综述 总被引：15，自引：0，他引：15

龚汉明周长胜《北京机械工业学院学报》2004,19(3):52-55,61

分词是中文信息处理的基础，在汉语文本分类、文献标引、智能检索、自然语言理解与处理等应用中，首先都要对中文文本进行分词处理。从分词的基本理论出发，对近年来的汉语分词的研究方法与成果进行了综合论述，分析了现有分词方法的特点，提出了把神经网络和专家系统结合起来建立集成式汉语自动分词系统的构想。相似文献

4.

基于知识的汉语拼音自动分词

杨长生潘凌云《浙江大学学报(工学版)》1992,26(2):246-251

本文提出了一种基于汉语语法知识的汉语拼音自动分词的方法。文章描述了自动分词时,多义切分检测与处理策略,以及利用语法和语义知识实现多义切分纠错方法。本文方法已经在拼音汉字转换系统中应用。实际情况表明,本文提出的汉语拼音自动分词方法是可行的。相似文献

5.

CRF模型中参数f在字标注汉语分词中的适用性研究

赵晓凡胡顺义刘永革《郑州大学学报(工学版)》2011,(4)

汉语分词作为中文信息处理的首要环节,其精确度对后续步骤的准确度和处理速度成逐级放大性影响.如何提高分词的准确度和处理速度成为近年研究的重点.采用条件随机场模型进行汉语分词,通过定量分析CRF工具包训练参数f,研究减少特征对分词准确度以及模型大小的影响程度,实验分别在国际汉语分词评测Bakeoff2005提供的北京大学和微软亚洲研究院两个语料上进行封闭测试,并对比采用不同模板时增加f参数值对分词性能的影响,最终得出实验结果:随着f参数值的增加,分词的准确度和生成的模型大小成正比,且F值减小的程度相对训练生成模型大小的减小程度要小得多. 相似文献

6.

基于期望的汉语分词模型的设计

赵福君黄厚宽俞经善《哈尔滨工程大学学报》1990,(2)

汉语分词是汉语处理与拼音文字语言处理的一个不同点.本文回顾了汉语分词研究的发展,对现有的四种汉语分词方法进行了评述,介绍了当前的研究现状和存在的困难,并提出了一种基于期望的汉语分词方法.这种方法把分词与理解同步进行.基于这种方法的汉语分词模型是由预处理模块、词头处理模块、期望分词模块、句法分析模块、语义分析模块、学习模块以及知识库组成. 相似文献

7.

一种基于规则优先级的词性标注方法

王广正王喜凤《安徽工业大学学报》2008,25(4):426-429

词性标注作为汉语自动分词以至中文信息处理领域比较关键的问题之一,是该领域的研究难点也是研究重点,对兼类词词性标注的正确率严重影响着词性标注的质量。在基于规则的词性标注的基础上,提出了一种基于规则优先级的词性标注方法,即对每条词性标注规则加上优先级,并在标注算法中通过对优先级进行控制来完成兼类词的词性标注。并用大规模语料对该方法做了试验,结果表明其词性标注正确率可达到96.4%。相似文献

8.

基于优化最大匹配与统计结合的汉语分词方法

刘春辉金顺福刘国华李颖《东北重型机械学院学报》2009,(2)

汉语自动分词是中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题。基于词典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频计算耗费时间。本文提出优化最大匹配与统计结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略。然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率。最后,基于分词算法实现中文分词系统,并通过实验对算法进行了分析和验证。相似文献

9.

基于CRF模型的组合型歧义消解研究 总被引：2，自引：0，他引：2

丁德鑫曲维光徐涛董宇《南京师范大学学报》2008,8(4)

组合型歧义切分是汉语自动分词的难点之一.为此,利用CRF（条件随机场）模型,以歧义字段的上下文的词和词性建立特征模板,进行歧义消解研究.以1998年半年《人民日报》为语料,对常用的10个组合歧义字段进行消歧,平均消歧正确率达到96.35%,取得了良好的效果.实验表明,利用该模型能有效提高消歧正确率. 相似文献

10.

面向本体实例生成的有限汉语语法学习系统

夏亚梅苏森《北京邮电大学学报》2010,33(5):37-40

为解决服务组合技术中本体实例的自动生成问题,建立了一个基于分词系统、面向服务组合领域的有限汉语语法学习系统(LCGAS);同时为将学习系统的学习结果表示为与本体相一致的形式,提出一种有限汉语语法的描述逻辑表示方法. 性能测试结果表明,系统在句法分析时具有较高的成功率,与提出的表示方法相结合,能较好地解决本体实例的自动生成问题. 相似文献

11.

一种应用分治策略的中文分词方法

赵春红 ;高希龙 ;王柠 ;赵威 ;刘国华《东北重型机械学院学报》2009,(5):444-449

自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一种新的分词算法,幷对该算法进行了理论分析和实验验证。相似文献

12.

最大概率分词问题及其解法 总被引：10，自引：0，他引：10

刘挺吴岩《哈尔滨工业大学学报》1998,30(6):37-41

提出了一种新的汉族自动分词算法,该算法运用人工智能中的问题求解技术,先将汉族句子的切分问题归约为若干字段的切分问题,再用启发式状态空间搜索技术将每个字段分别转换为概率最大的词序列。相似文献

13.

基于字、词、词组的中文搜索引擎分词系统 总被引：2，自引：0，他引：2

陈天娥赵曾贻《武汉工业学院学报》2002,(3):37-40

分析了全文检索系统中常用的基于字表和基于词表的中文分词方法的优缺点，提出了基于字、词、词组混合模型的中文搜索引擎分词系统；并利用广义语词概念，设计了分词词典，改进了最大匹配分词算法（MM）；最后把分词系统应用于全文检索中。相似文献

14.

简单中文自动摘要系统研究

张雷生万绍俊许鹏文《装备指挥技术学院学报》2004,15(3):105-109

摘要是对文档内容的概括,在信息检索中起着重要的作用。分析了机械式自动摘要的局限性,提出一种模仿人工进行自动摘要的方法;探讨了简单的中文自动摘要系统的结构模型,在此基础上对模型中的分词模块和文摘句的提取模块进行了分析。最后,结合实例对系统进行了进一步地讨论。结果表明:该系统能够达到较好的质量和效率。相似文献

15.

一个书面汉语词库系统的设计与实现

杨春花张洁胡芳立《山东轻工业学院学报》2006,20(2):29-34

给出了一个词库维护及检索系统,它采用基于PATRICIA tree的分词词典机制及灵活的词库维护及检索方法,不仅适用于传统的机械切分,更适合于串行和并行全切分.该词库系统已在一个全切分系统应用. 相似文献

16.

基于双向匹配法和特征选择算法的中文分词技术研究 总被引：1，自引：0，他引：1

麦范金李东普岳晓光《昆明理工大学学报(自然科学版)》2011,36(1):47-51

传统的双向匹配算法虽然能够发现歧义现象,但是却不能解决歧义问题.为了更好地进行歧义消解,提出了一种基于双向匹配法和特征选择算法的中文分词技术,通过积累的语料库,设计并实现了一个基于两种方法的分词系统.该系统的实验结果表明,基于双向匹配法和特征选择算法的中文分词技术比传统方法的效果要好. 相似文献