期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

熊明明李英郭剑毅毛存礼余正涛 《数据采集与处理》2017,32(3):636-642

通过对越南语词法特点的研究,把越南语的基本特征融入到条件随机场中(Condition random fields,CRFs),提出了一种基于CRFs和歧义模型的越南语分词方法。通过机器标注、人工校对的方式获取了25 981条越南语分词语料作为CRFs的训练语料。越南语中交叉歧义广泛分布在句子中,为了克服交叉歧义的影响,通过词典的正向和逆向匹配算法从训练语料中抽取了5 377条歧义片段,并通过最大熵模型训练得到一个歧义模型,并融入到分词模型中。把训练语料均分为10份做交叉验证实验,分词准确率达到了96.55%。与已有越南语分词工具VnTokenizer比较,实验结果表明该方法提高了越南语分词的准确率、召回率和F值。相似文献

2.

基于多分类器加权投票法的越南语组合歧义消歧

李佳郭剑毅刘艳超余正涛线岩团阮氏青娥《计算机科学》2018,45(1):167-172

组合歧义消解是分词中的关键问题之一,直接影响到分词的准确率。为了解决越南语组合歧义对分词的影响问题,结合越南语组合型词的特点,提出了一种基于集成学习的越南语组合歧义消解方法。该方法首先通过人工选取越南语组合歧义词,构建出越南语组合歧义字段库,对越南语语料与越南语组合词词典进行匹配,抽取出越南语组合歧义字段;其次,采用三类分类器引入越南语词频特征和上下文信息,构建三类分类器消解模型,得到三类分类器消解结果;最后,计算出各分类器权值,通过阈值对越南语组合歧义进行最终分类。实验表明,所提方法的正确率达到了83.32%,与消歧结果最好的单个分类器相比准确率提高了5.81%。相似文献

3.

基于最大熵的越南语新闻事件元素抽取方法

周枫庙介璞潘清清严馨余正涛《数据采集与处理》2017,32(4):838-843

越南与中国一水相依,是重要的政治、军事和经济合作邻国,然而针对越南语新闻事件元素的提取研究非常匮乏。本文针对越南语特点,提出一种基于最大熵模型的越南语新闻事件元素抽取方法。该方法针对越语句子结构和词汇语义的特点,采用最大熵算法,选取上下文、邻近触发词以及邻近实体作为特征,定义特征模版,训练获得越南语新闻事件模型,实现新闻事件元素抽取。抽取实验结果表明本文提出的方法抽取新闻事件元素的准确率达到80%以上。相似文献

4.

基于最大熵模型的共指消解研究

庞宁杨尔弘《中文信息学报》2008,22(2):24-27,54

共指是突发事件新闻报道中的常见现象。良好的处理共指现象,是进行信息提取的基本必要过程。本文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,目的是提取出突发事件新闻报道中指向同一实体的名词、代词和名词短语。根据问题特点,算法选择了8类特征作为模型的特征,该模型在20万字的新闻语料上进行训练,在10万字规模的语料上进行测试,最终的测试得到系统的F值为64.5%。相似文献

5.

基于最大熵模型的英文名词短语指代消解 总被引：11，自引：0，他引：11

钱伟郭以昆周雅倩吴立德《计算机研究与发展》2003,40(9):1337-1343

提出了一种新颖的基于语料库的英文名词短语指代消解算法,该算法不仅能解决传统的代词和名词／名词短语间的指代问题,还能解决名词短语间的指代问题。同时,利用最大熵模型,可以有效地综合各种互不相关的特征,算法在MUC7公开测试语料上F值达到了60．2％,极为接近文献记载的该语料库上F值的最优结果61．8％。相似文献

6.

基于最大熵模型的中文指代消解系统实现*

胡乃全孔芳王海东周国栋朱巧明《计算机应用研究》2009,26(8):2948-2951

实现了一个基于最大熵的中文指代消解系统。通过预处理获得相关信息,抽取出12特征,采用最大熵算法训练生成分类器。在ACE05 bnews中文测试语料上的指代消解实验结果表明,本系统是一个中文指代消解研究的较好平台。相似文献

7.

融合字特征的平滑最大熵模型消解交集型歧义

任惠林鸿飞杨志豪《中文信息学报》2010,24(4):18-25

交集型歧义的切分问题是分词阶段需要解决难点之一。该文将交集型歧义的消解问题转化为分类问题,并利用融合丰富字特征的最大熵模型解决该问题,为了克服最大熵建模时的数据稀疏问题,该文引入了不等式平滑技术和高斯平滑技术。我们在第二届国际分词竞赛的四个数据集上比较了高斯平滑技术、不等式平滑技术和频度折扣平滑技术,测试结果表明不等式平滑技术和高斯平滑技术比频度折扣技术有显著提高,而它们之间不分伯仲,但是不等式平滑技术能使特征选择无缝嵌入到参数估计过程中,显著压缩模型规模。该方法在四个测试集上最终获得了96.27%、96.83%、96.56%、96.52%的消歧正确率,对比实验表明丰富的特征使消歧性能分别提高了5.87%、5.64%、5.00%、5.00%,平滑技术使消歧性能分别提高了0.99%、0.93%、1.02%、1.37%,不等式平滑使分类模型分别压缩了38.7、19.9、44.6、9.7。相似文献

8.

基于最大交叉熵估计高斯混合模型参数的方法 总被引：2，自引：0，他引：2

马继涌高文《软件学报》1999,10(9):974-978

传统的基于最大似然估计高斯混合模型参数的方法是一种无导师的学习方法.该方法的主要缺点是学习算法在估计一类模式模型中的参数时只利用了该类模式中的训练样本,而未考虑其他类训练样本分布的影响,因此,这种方法的识别效果往往不够理想.该文提出了利用最大交叉熵估计高斯混合模型参数的方法,这种方法考虑了不同类之间的样本区分性.同时,为了提高获得全局最优解的可能性,文章给出一种利用进化规划求解最优参数的算法,并将这种方法用于非限定文本的话者识别.实验表明,该方法比传统的参数估计方法识别效果要好. 相似文献

9.

最大熵和最小交叉熵综合的交互式图像分割 总被引：1，自引：0，他引：1

下载免费PDF全文

张新明孙印杰张慧云《计算机工程与应用》2010,46(30):191-194

在图像分割中,使用某一种分割方法并不是总有效。最大熵和最小交叉熵阈值化方法是目前常用的两种图像分割方法,但在某些分割应用场合失效。针对此问题,提出基于最大熵和最小交叉熵综合的交互式图像分割方法。首先,利用一种简单的算法将前两种方法有机结合产生一种既满足最大熵原则,又满足最小交叉熵原则的新分割方法,然后通过人机交互,在这三种阈值方法中选择最好的图像分割。仿真实验结果表明,提出的方法不仅分割效果好,算法的普适性增强,而且更实用。相似文献

10.

基于最大熵模型的组块分析 总被引：39，自引：0，他引：39

李素建刘群杨志峰《计算机学报》2003,26(12):1722-1727

采用最大熵模型实现中文组块分析的任务．首先明确了中文组块的定义，并且列出了模型中所有的组块类型和组块标注符号．组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程，我们可以把它作为一个分类问题根据最大熵模型来解决．最大熵模型的关键是如何选取有效的特征，文中给出了相关的特征选择过程和算法．最后给出了系统实现和实验结果．相似文献

11.

基于特征选择和最大熵模型的汉语词义消歧 总被引：4，自引：0，他引：4

何径舟王厚峰《软件学报》2010,21(6):1287-1295

词义消歧是自然语言处理中一类典型的分类问题.在分类中,特征的选择至关重要.通常情况下,特征是由人工选择的,这就要求特征选取者对于待分类的问题本身和分类模型的特点有深刻的认识.分析了汉语词义消岐中特征模板对消歧结果的影响,在此基础上提出一套基于最大熵分类模型的自动特征选择方法,包括针对所有歧义词的统一特征模板选择和针对单个歧义词的独立特征模板优化算法.实验结果表明,使用自动选择的特征,不仅简化了特征模板,而且提高了汉语词义消歧的性能.与SemEval 2007:task #5的最好成绩相比,该方法分别在微平均值MicroAve(micro-average accuracy）)和宏平均值MacroAve(macro-average accuracy）)上提升了3.10%和2.96%. 相似文献

12.

基于最大熵模型的本体概念获取方法 总被引：1，自引：0，他引：1

下载免费PDF全文

韦小丽孙涌张书奎苗艳军《计算机工程》2009,35(24):114-116

本体是语义检索的核心。本体构建主要包括领域概念获取和概念间关系获取,其中领域概念获取是本体构建的基础。采用基于最大熵模型的方法来获取概念,通过对领域文本进行挖掘而得到名词性短语,使用改进的TF-IDF公式从中抽取具有领域性的短语,并经人工修正后得到本体概念。实验表明该方法提高了概念的准确性和完整性。相似文献

13.

基于多层最大嫡模型的句子主干分析

葛斌封孝生谭文堂肖卫东《计算机科学》2010,37(12):156-160

句子主干分析的主要任务是自动识别句子的主干成分。鉴于汉语句子之间成分的相关性,提出一种多层最大嫡模型,它的底层最大嫡利用句子的上下文特征识别主千词候选项,高层最大嫡利用底层最大嫡模型的计算结果,结合句子内的远距离特征和句子之间的关系,对底层最大嫡模型识别出的主干词候选集进行分析。实验证明,该模型对于简单的主干成分识别正确率较高,对训练语料有一定的依赖;随着语料规模的增长,模型性能缓慢提升。相似文献

14.

基于最大熵模型的冠词错误纠正系统

陈朝才吴敏吴桂兴郭燕《计算机系统应用》2015,24(8):85-90

研究了英语语法中冠词错误的计算机自动纠正. 首先对冠词使用的错误进行定义分类, 并考虑到可能出现冠词缺失的情况, 通过采用基于最大熵模型的分类器, 选择包含上下文、上下文词性、短语结构等特征, 在训练集上进行模型预的训练, 然后使用模型对于输入句子进行预测并纠正存在的使用错误. 在NUCLE语料的实验中, 给出了语料处理、模型特点、训练语料的大小对于测试集效果的影响, 并且比较了自然语言处理中非常通用的朴素贝叶斯模型的结果, 还根据英语语法中存在的错误特点对模型进行改进, 最后在测试数据达到35.48%的F值, 相较于CoNLL2013的shared task中最好结果有小幅提升. 相似文献