首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
基于搭配模式的汉语词性标注规则的获取方法   总被引:2,自引:0,他引:2  
文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的词性标注,使标注的正确率得到了明显提高。  相似文献   

2.
汉语词性标注排歧方法探讨   总被引:4,自引:0,他引:4  
该文将概率统计的二元模型与三元模型用于汉语词性自动标注,在算法为线性阶的时间复杂度的情况下,对20万训练集和1万的测试集,分别进行封闭测试和开放测试,对稀疏矩阵零元素及词性标注的结果做了统计分析。  相似文献   

3.
汉语词性标注方法的研究   总被引:4,自引:0,他引:4  
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中,词所表现  相似文献   

4.
自上而下的关联规则采掘方法   总被引:1,自引:0,他引:1  
1.前言在数据集中采掘关联规则是数据采掘的一个重要内容,[2]中提出了一种自底向上的数据采掘方法,即把数据集的各个属性从概念层次的最底层向高层进行“泛化”,但这种方法有二个缺点:首先,它的每一层都有一个阈值,但这些阈值之间是密切相关的;并且,对于不同数据集,这些阈值之间的关系也不同。在数据采掘的过程中,要调整这些阈值以取  相似文献   

5.
6.
统计与规则并举的汉语词性自动标注算法   总被引:8,自引:0,他引:8  
张民  李生  赵铁军  张艳风 《软件学报》1998,9(2):134-138
本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考虑生词和汉语词错误切分的情况下,本算法的准确率为98.9%和98.1%.  相似文献   

7.
汉语词性自动标注系统的设计与实现   总被引:2,自引:1,他引:2  
介绍汉语词性自动标注系统的设计与实现。该系统实现了统计与相结合的方法进行汉语词性自动标注。描述了该系统的总体结构,以及所使用的非兼类词表、兼类词表、标记集和词性标注规则的组织,特别对稀疏矩阵及其存储方法进行了详细的介绍。  相似文献   

8.
时态关联规则采掘的若干性质   总被引:5,自引:0,他引:5  
研究了时态(时间段)数据的关联规则的数据采掘问题。给出了事件项目发生与时间段有关的关联规则的可信度概念,主要得到了几个重要的性质。  相似文献   

9.
文章提出了基于RoughSets的汉语兼类词初始标注规则的获取方法,并通过模糊神经网络(FNN)进行优化,最后再进行简化获取模糊规则;文章以人工标注过的句子作为训练集和测试集,得出了训练集左3、左4、右3、右4个兼类词标注规则库;对同样的训练集和测试集,采用统计二元模型进行标注后,再利用该方法(粗糙模糊神经网络方法,简称RSFNN)进行二次标注,结果表明RSFNN方法优于统计二元模型方法。最后实例说明汉语兼类词词性标注规则的获取方法。  相似文献   

10.
采掘关联规则的高效并行算法   总被引:32,自引:1,他引:32       下载免费PDF全文
采掘关联规则是数据采掘领域的一个重要问题。文中对采掘关联规则问题进行了简单的回顾,给出了一种提高顺序采掘关联规则效率的方法;分析了已有并采掘关联规则算法的优缺点;设计了一个效率较高的并行采掘关联规则的算法PMAR;并与其它相应算法进行了比较,实验证明,算法PMAR是有效的。  相似文献   

11.
基于SRNN神经网络的汉语文本词类标注方法   总被引:3,自引:0,他引:3  
词类标注是语料库加工流程一个关键环节,是句法,语义标注分析的前提,本文提出了一种基于SRNN神经网络的词类标记方法,SRNN在三层前向神经网络的结构基础上,增加了隐层节点与输入层状态节点之间的反馈联接,这种结构使用网络具有利用上下文词类信息的处理能力,本文还讨论了网络的训练算法,以人工标注的句子作训练集,经过训练收敛后的网络对新语料的词类标注正确率达到了94%。  相似文献   

12.
北京大学现代汉语语料库基本加工规范(续)   总被引:9,自引:3,他引:6  
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。  相似文献   

13.
大规模现代汉语标注语料库的加工规范   总被引:14,自引:5,他引:9       下载免费PDF全文
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。  相似文献   

14.
基于非监督训练的汉语词性标注的实验与分析   总被引:4,自引:0,他引:4       下载免费PDF全文
概率参数的获取是基于统计的词性标注的两个主要研究方向之一.侧重于研究非监督方式,利用未标注的语料进行训练获取概率参数.实现了一个非监督的训练标注模式-HMM-Basic;从不同的初始模型和训练集出发对汉语词性标注进行了实验;分析了训练集规模、初始模型的选择对系统标注性能的影响并讨论了其中所存在的问题。  相似文献   

15.
汉语分词系统中的信息集成和最佳路径搜索方法   总被引:10,自引:1,他引:10  
复杂的汉语分词系统中,各种信息的有效集成是系统实现的关键。本文介绍了分词系统SegTag中信息集成方法,并讨论了信息集成结构中的两种最佳路径搜索方法。最后,我们给出实验结果和结论。  相似文献   

16.
基于最大熵方法的汉语词性标注   总被引:5,自引:0,他引:5  
最大熵模型的应用研究在自然语言处理领域中受到关注,文中利用语料库中词性标注的上下文信息建立基于最大熵方法的汉语词性系统。研究的重点在于其特征的选取,因为汉语不同于其它语言,有其特殊性,所以特征的选取上与英语有差别。实验结果证明该模型是有效的,词性标注正确率达到97.34%。  相似文献   

17.
语料库词性标注一致性检查方法研究   总被引:4,自引:0,他引:4  
在对大规模语料库进行深加工时,保证词性标注的一致性已成为建设高质量语料库的首要问题。本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法,该方法避开了以前一贯采用的规则或统计的方法,利用聚类和分类的思想,对范例进行聚类并求出阈值,对测试数据分类来确定其标注的正误,进而得出每篇文章的词性标注一致性情况,进一步保证大规模语料库标注的正确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号