首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 786 毫秒
1.
汉语语料词性标注自动校对方法的研究   总被引:6,自引:0,他引:6  
兼类词的词类排歧是汉语语料词性标注中的难点问题,它严重影响语料的词性标注质量。针对这一难点问题,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息,自动生成兼类词词性校对规则,并应用获取的规则实现对机器初始标注语料的自动校对,从而提高语料中兼类词的词性标注质量。分别对50万汉语语料做封闭测试和开放测试,结果显示,校对后语料的兼类词词性标注正确率分别可提高11.32%和5.97%。  相似文献   

2.
在构建助词知识库、标注大规模语料过程中使用了基于规则的助词用法自动标注的方法;对标注后的语料,发现基于规则的助词用法自动标注方法能够自动发现语料的部分词性、分词错误.这些错误的发现对研制高质量的语料库起到了积极的促进作用,并将语料加工深度向前推进.  相似文献   

3.
规则和统计相结合的汉语词类标注方法   总被引:22,自引:5,他引:17  
本文分析了汉语的多类词现象与汉语词类标注的困难, 介绍了汉语词类标注中的规则排歧和统计排歧的处理策略以及规则和统计相结合的处理思路。按此思路设计的软件系统, 对封闭语料和开放语料的标注正确率分别达到了96.06%和95.82%。  相似文献   

4.
统计与规则并举的汉语词性自动标注算法   总被引:8,自引:0,他引:8  
张民  李生  赵铁军  张艳风 《软件学报》1998,9(2):134-138
本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考虑生词和汉语词错误切分的情况下,本算法的准确率为98.9%和98.1%.  相似文献   

5.
辛日华 《控制工程》2012,19(4):716-717,722
词义排歧是自然语言处理中的一个难点问题,它在机器翻译、信息检索、句子分析和语音识别等自然语言处理的许多领域中起着举足轻重的作用。因此词义排歧方法的研究在自然语言处理领域具有重要的理论和实践意义。获得带语义标记的大规模训练语料是词义排歧在自然语言处理中的一个难点。为了解决这一问题,提出了一种基于知识的语义剪枝方法。其目的是通过语义剪枝系统尽可能地减少歧义词在上下文中错误的或最不可能的义项。语义剪枝以后,形成词和其可能义项的一个列表,尽量将一个词真正正确的义项保留下来。为了对语义剪枝算法进行评价,特意开发了一个人机交互的语义标注系统,并将获得的语料应用到了词义排歧系统。通过对系统标注的语料和人工标注的语料进行对比,达到对算法评价的目的,收到了良好的效果。  相似文献   

6.
汉语语气词用法的自动识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
周溢辉  穆玲玲  昝红英  袁应成 《计算机工程》2010,36(23):155-157,161
研究现代汉语语气词用法的自动识别问题,从语气词的实际用法入手,构建语气词用法词典和语气词用法规则库,利用语气场构建语气词用法规则库。采用1998年1月的《人民日报》分词与词性标注语料,利用语气词用法规则库进行语气词的自动识别。实验结果证明,语气词的识别准确率为78.433%。  相似文献   

7.
藏文分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在的非藏文字符切分错误,藏文黏着词识别错误,停用词切分错误,未登录词切分错误等问题分别总结了规则,并对分词的结果利用规则进行再加工,得到最终的分词结果,开放实验表明该系统的正确率96.11%,召回率96.03%,F值96.06%。  相似文献   

8.
雷蕾  王晓丹  周进登 《计算机科学》2012,39(12):245-248
情感分类任务旨在自动识别文本所表达的情感色彩信息(例如,褒或者贬、支持或者反对)。提出一种基于情 绪词与情感词协作学习的情感分类方法:在基于传统情感词资源的基础上,引入少量情绪词辅助学习,只利用大规模 未标注数据实现情感分类。具体来讲,基于文档一单词二部图的标签传播算法框架,利用情绪词与情感词构建两个视 图,通过协作学习的方法从大规模未标注语料中抽取高正确率的自动标注样本作为训练数据,然后训练分类器进行情 感分类。实验表明,该方法在多个领域的情感分类任务中都取得了较好的分类效果。  相似文献   

9.
机器翻译错误分析旨在找出机器译文中存在的错误,包括错误类型、错误分布等,它在机器翻译研究和应用中发挥着重要作用。该文将人工译后编辑与错误分析结合起来,对译后编辑操作进行错误标注,采用自动标注和人工标注相结合的方法,构建了一个细粒度英汉机器翻译错误分析语料库,其中每一个标注样本包括源语言句子、机器译文、人工参考译文、译后编辑译文、词错误率和错误类型标注;标注的错误类型包括增词、漏词、错词、词序错误、未译和命名实体翻译错误等。标注的一致性检验表明了标注的有效性;对标注语料的统计分析结果能有效地指导机器翻译系统的开发和人工译员的后编辑。  相似文献   

10.
针对目前汉语兼类词标注的准确率不高的问题,提出了规则与统计模型相结合的兼类词标注方法。首先,利用隐马尔可夫、最大熵和条件随机场3种统计模型进行兼类词标注;然后,将改进的互信息算法应用到词性(POS)标注规则的获取上,通过计算目标词前后词单元与目标词的相关性获得词性标注规则;最后,将获取的规则与基于统计模型的词性标注算法结合起来进行兼类词标注。实验结果表明加入规则算法之后,平均词性标注准确率提升了5%左右。  相似文献   

11.
在医疗命名实体识别中,由于存在大量医学专业术语和语料中语言不规范的原因,识别的准确率不高。为了识别未登录的医学术语和应对语言不规范问题,提出一种基于N-grams新词发现的Lattice-LSTM的多粒度命名实体识别模型。在医疗对话语料中使用N-grams算法提取新词并构造一个医疗相关的词典,通过Lattice-LSTM模型将输入的字符和所有能在词典匹配的单词一起编码,其中门结构能够使模型选择最相关的字符和单词。Lattice-LSTM能够利用发现的新词信息识别未登录的医学术语,从而得到更好的实验识别结果。  相似文献   

12.
板带材缺陷检测中的多特征优化组合方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对冷轧板带材常见表面缺陷图像识别的特点,提出了板带材表面缺陷多特征优化组合方法,该方法以直方图统计特征、小波变换特征、灰度共生矩阵特征、不变矩特征等4类特征共26维特征向量为基础,依据类间类内距离差的类别可分离性判据对特征进行优化,选出最优特征向量组合。对6类典型板带材表面缺陷进行实验,实验结果表明,采用多特征优化组合方法选择出的特征向量具有较好的分离效果,显著地提高了表面缺陷的识别率。  相似文献   

13.
随着中国英语新词大量出现,缺少中国英语新词语料库成为研究中国英语的主要障碍,新词识别是建设语料库主要的技术问题。针对现有的点互信息和邻接熵新词识别算法中的词内部凝聚度低,及点互信息单阈值设置存在较多高阈值无效词组,且低阈值新词组无法识别的问题,提出了改进多字点互信息和邻接熵中国英语新词识别算法。利用多字点互信息以及点互信息双阈值的设定来识别新词。实验结果表明,相同数据和实验环境下,该方法提高了准确率、召回率和[F]值,对语料库建设是有效可行的。  相似文献   

14.
支持向量机(Support Vector Machines,简称SVM)根据有限的样本信息在对文本分类的精度和学习能力之间,相比其他的文本分类算法寻求了最佳折中,从而获得了较好的推广能力。而SVM是从线性可分情况下的最优分类面发展而来的,因此对于线性可分文本具有更好的分类效果。给出了一种效率较高的线性可分文本的SVM算法,它在训练的时间复杂度上具有明显的改进,从而可以提高训练效率。结果表明:改进后的SVM算法相比以前的算法大大提高了运行效率。  相似文献   

15.
离合触发词的构词语素可能因插入、颠倒、省略而产生多种合法分离形式,这些分离形式与原形一样也能表征事件。为完整抽取事件,提出一种基于依存分析的离合触发词合法分离形式判定算法。该方法首先借助依存分析考察离合触发词合法分离形式在句中所受的依存约束,然后将这些约束转化为可计算的判定规则,最后利用判定规则对离合触发词的合法分离形式进行判定。实验结果显示,排除稀疏数据前,此方法的正确率、召回率、F值分别为82.2%、88.3%、85.1%;排除稀疏数据后,正确率、召回率、F值提升到82.4%、88.7%、85.4%。方法已基本具备应用潜质。  相似文献   

16.
针对当前压缩感知重构算法存在重构质量偏低、重构时间过长等问题,提出了基于矩阵流形分离字典构造的分块压缩感知重构算法。首先,该算法基于矩阵流形模型训练出可分离稀疏表示矩阵,并对其正交化;其次,构造随机测量矩阵,并利用矩阵运算将其与得到的稀疏表示矩阵进行结合,进而构造出一组分离字典;最后,将该字典用于信号压缩感知中,并通过线性运算实现信号的快速重构。实验结果表明,与当前主流的压缩感知重构算法相比,所提算法在重构精度以及重构时间上都具有一定提升,并在对实时性要求高的领域中具有很好的应用价值。  相似文献   

17.
为了提高声纹识别技术的识别性能,将DenseNet应用于语谱图实现声纹识别,从提高网络的运算效率和增强声纹特征的表征能力2个方面对DenseNet进行优化,提出采用深度可分离卷积来减少网络的参数量,以及增加中心损失函数项来提高声纹特征的表征能力.从训练结果可以看出,通过深度可分离卷积,网络的参数量减少了25.5%,模型...  相似文献   

18.
互联网中存在海量易获取的自然语言形式地址描述文本,其中蕴含丰富的空间信息。针对其非结构化特点,提出了自动提取中文自然语言地址描述中词语和句法信息的方法,以便深度挖掘空间知识。首先,根据地址语料中字串共现的统计规律设计一种不依赖地名词典的中文分词算法,并利用在地址文本中起指示、限定作用的常见词语组成的预定义词表改善分词效果及辅助词性标注。分词完成后,定义能够表达中文地址描述常用句法的有限状态机模型,进而利用其自动匹配与识别地址文本的句法结构。最后,基于大规模真实语料的统计分词及句法识别实验表明了该方法的可用性及有效性。  相似文献   

19.
针对传统目标检测算法在配电施工作业场景中对施工安全设备识别精度低和效果不准确的问题,本文提出了一种面向配电线网施工安全设备识别的YOLO-Rotating算法。该算法以YOLOv8为基础,采用深度可分离卷积代替部分Conv设计C2f-R模块,减少模型参数量,提升感受野;使用GAM注意力模块增强特征提取能力,提高语义信息并减少干扰;最后增加旋转目标检测模块使检测框与目标轮廓更贴合,提高检测准确度。实验结果表明,在配电安全设备数据集上,YOLO-Rotating算法的平均精度均值(mAP)达到84.6%,比原算法提高了2.5%,精确度提升了2.07%。该算法具有更高的检测精度和更好的实际应用价值,满足边缘计算设备的要求,适用于配电现网作业施工场景。  相似文献   

20.
针对冷轧带钢表面缺陷图像特征提取的特点,提出了基于类距离可分离性判据的混合特征提取方法。该方法以小波变换的L1范数特征和灰度共生矩阵二次统计特征为基础,运用基于类距离的可分离性判据原理提取出可分离性特征向量。对几种生产现场出现频率较高、危害严重的典型缺陷进行了计算机实验研究,实验结果表明,运用基于类距离可分离性判据的混合特征提取方法提取的特征向量具有较大的可分离性,很大程度上提高了特征的分类有效性,使缺陷识别取得了较高的正确识别率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号