共查询到17条相似文献,搜索用时 46 毫秒
1.
基于搭配模式的汉语词性标注规则的获取方法 总被引:2,自引:0,他引:2
文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的词性标注,使标注的正确率得到了明显提高。 相似文献
2.
汉语词性标注排歧方法探讨 总被引:4,自引:0,他引:4
该文将概率统计的二元模型与三元模型用于汉语词性自动标注,在算法为线性阶的时间复杂度的情况下,对20万训练集和1万的测试集,分别进行封闭测试和开放测试,对稀疏矩阵零元素及词性标注的结果做了统计分析。 相似文献
3.
汉语词性标注方法的研究 总被引:4,自引:0,他引:4
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中,词所表现 相似文献
4.
自上而下的关联规则采掘方法 总被引:1,自引:0,他引:1
1.前言在数据集中采掘关联规则是数据采掘的一个重要内容,[2]中提出了一种自底向上的数据采掘方法,即把数据集的各个属性从概念层次的最底层向高层进行“泛化”,但这种方法有二个缺点:首先,它的每一层都有一个阈值,但这些阈值之间是密切相关的;并且,对于不同数据集,这些阈值之间的关系也不同。在数据采掘的过程中,要调整这些阈值以取 相似文献
5.
6.
7.
汉语词性自动标注系统的设计与实现 总被引:2,自引:1,他引:2
介绍汉语词性自动标注系统的设计与实现。该系统实现了统计与相结合的方法进行汉语词性自动标注。描述了该系统的总体结构,以及所使用的非兼类词表、兼类词表、标记集和词性标注规则的组织,特别对稀疏矩阵及其存储方法进行了详细的介绍。 相似文献
8.
时态关联规则采掘的若干性质 总被引:5,自引:0,他引:5
孟志青 《计算机工程与应用》2001,37(10):86-87
研究了时态(时间段)数据的关联规则的数据采掘问题。给出了事件项目发生与时间段有关的关联规则的可信度概念,主要得到了几个重要的性质。 相似文献
9.
基于Rough Sets和模糊神经网络的汉语兼类词词性标注规则的获取方法 总被引:1,自引:1,他引:0
文章提出了基于RoughSets的汉语兼类词初始标注规则的获取方法,并通过模糊神经网络(FNN)进行优化,最后再进行简化获取模糊规则;文章以人工标注过的句子作为训练集和测试集,得出了训练集左3、左4、右3、右4个兼类词标注规则库;对同样的训练集和测试集,采用统计二元模型进行标注后,再利用该方法(粗糙模糊神经网络方法,简称RSFNN)进行二次标注,结果表明RSFNN方法优于统计二元模型方法。最后实例说明汉语兼类词词性标注规则的获取方法。 相似文献
10.
采掘关联规则是数据采掘领域的一个重要问题。文中对采掘关联规则问题进行了简单的回顾,给出了一种提高顺序采掘关联规则效率的方法;分析了已有并采掘关联规则算法的优缺点;设计了一个效率较高的并行采掘关联规则的算法PMAR;并与其它相应算法进行了比较,实验证明,算法PMAR是有效的。 相似文献
11.
基于SRNN神经网络的汉语文本词类标注方法 总被引:3,自引:0,他引:3
词类标注是语料库加工流程一个关键环节,是句法,语义标注分析的前提,本文提出了一种基于SRNN神经网络的词类标记方法,SRNN在三层前向神经网络的结构基础上,增加了隐层节点与输入层状态节点之间的反馈联接,这种结构使用网络具有利用上下文词类信息的处理能力,本文还讨论了网络的训练算法,以人工标注的句子作训练集,经过训练收敛后的网络对新语料的词类标注正确率达到了94%。 相似文献
12.
13.
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。 相似文献
14.
概率参数的获取是基于统计的词性标注的两个主要研究方向之一.侧重于研究非监督方式,利用未标注的语料进行训练获取概率参数.实现了一个非监督的训练标注模式-HMM-Basic;从不同的初始模型和训练集出发对汉语词性标注进行了实验;分析了训练集规模、初始模型的选择对系统标注性能的影响并讨论了其中所存在的问题。 相似文献
15.
汉语分词系统中的信息集成和最佳路径搜索方法 总被引:10,自引:1,他引:10
复杂的汉语分词系统中,各种信息的有效集成是系统实现的关键。本文介绍了分词系统SegTag中信息集成方法,并讨论了信息集成结构中的两种最佳路径搜索方法。最后,我们给出实验结果和结论。 相似文献
16.