首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于条件随机域的词性标注模型   总被引:3,自引:0,他引:3  
词性标注主要面临兼类词消歧以及未知词标注的难题,传统隐马尔科夫方法不易融合新特征,而最大熵马尔科夫模型存在标注偏置等问题。本文引入条件随机域建立词性标注模型,易于融合新的特征,并能解决标注偏置的问题。此外,又引入长距离特征有效地标注复杂兼类词,以及应用后缀词与命名实体识别等方法提高未知词的标注精度。在条件随机域模型框架下,本文进一步探讨了融合模型的方法及性能。词性标注开放实验表明,条件随机域模型获得了96.10%的标注精度。  相似文献   

2.
维吾尔语自动标注是维吾尔语信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性是词的重要的语法信息,假如一个词的词性无法确定或一个词给予错误的词性,对后续句法分析造成直接的影响。本文使用感知器训练算法和viterbi算法对维吾尔语进行词性标注,并在词性标注时利用词的上下文信息作为特征。实验结果表明,该方法对维吾尔语词性标注有良好的效果。  相似文献   

3.
词性兼类是自动词性标注过程的关键所在,特别是确定未登录词词性的正确率对整个标注效果有很大的影响.对兼类词排歧方法进行了研究,针对统计和规则两种方法各自的优点和局限,提出运用隐马尔科夫模型和错误驱动学习方法相结合自动标注方法,最后介绍了如何通过这种方法在只有一个词库的有限条件下进行词性标注和未登录词的词性猜测.实验结果表明,该方法能有效提高未登录词词性标注的正确率.  相似文献   

4.
近些年来语料库语言学的发展较为迅速,语料库的建设成为一项重要的工作。在对语料加工的过程中,保证词性标注的一致性也成为建设高质量语料库的首要问题.本文首先概要介绍了一种维吾尔语的标注方法,并受一些文献的启发,根据维吾尔语的特点对其进行词性标注自动校对的研究,进而提高维语词性标注的正确率。  相似文献   

5.
制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。  相似文献   

6.
隐马尔可夫模型(Hidden Markov Model,HMM)在自然语言处理、语音识别、模式识别等领域都得到了广泛的应用,特别是在词性标注中起到了很好的效果.词性标注在信息处理范畴内起着重要的基础性作用,词性标注的好坏直接影响着基于标注结果的各种信息处理的准确度.基于HMM分别实现了中文词性标注与英文词性标注,并对两...  相似文献   

7.
词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标注的语料库的基础之上,研究了基于N元语言模型的维吾尔语词性自动标注的方法,分析了N元语言模型参数的选取以及数据平滑,比较了二元、三元文法模型对维吾尔语词性标注的效率;研究了标注集和训练语料规模对词性标注正确率的影响。实验结果表明,用该方法对维吾尔语进行词性标注有良好的效果。  相似文献   

8.
针对老挝语语料资源极少而无法直接利用有监督学习的方法实现老挝语词法分析的问题,提出了基于半监督学习的老挝语词性标注方法。首先利用仅有的少量标注词典和未标注语料资源,采用简单概率模型建模,获取较为完整的标注词典;其次利用整数规划获取大量自动标注的语料;最后在训练语 料充足的情况下,利用二阶隐马尔科夫模型建模,实现高质量的老挝语词性标注。提出的方法在老挝语词性标注方面取得了较好的效果,其准确率达到89.8%。  相似文献   

9.
哈萨克语的词性标注在自然语言信息处理领域中扮演着重要角色,是句法分析、信息抽取、机器翻译等自然语言处理的基础。在传统的HMM的基础上改进了HMM模型参数的计算、数据平滑以及未登录词的处理方法,使之更好地体现词语的上下文依赖关系。利用基于统计的方法对哈萨克语熟语料进行训练,然后用Viterbi算法实现词性标注。实验结果表明利用改进的HMM进行词性标注的效果比传统的HMM好。  相似文献   

10.
基于搭配模式的汉语词性标注规则的获取方法   总被引:2,自引:0,他引:2  
文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的词性标注,使标注的正确率得到了明显提高。  相似文献   

11.
大规模未标注语料中蕴含了丰富的词汇信息,有助于提高中文分词词性标注模型效果。该文从未标注语料中抽取词汇的分布信息,表示为高维向量,进一步使用自动编码器神经网络,无监督地学习对高维向量的编码算法,最终得到可直接用于分词词性标注模型的低维特征表示。在宾州中文树库5.0数据集上的实验表明,所得到的词汇特征对分词词性标注模型效果有较大帮助,在词性标注上优于主成分分析与k均值聚类结合的无监督特征学习方法。  相似文献   

12.
互联网信息时代,如何从复杂的数据中进行有目标的数据挖掘是很多领域的一个中心问题.目前针对此问题的方法大多是基于统计学习理论的机器学习方法,并且粒计算在数据挖掘问题中有着广泛的应用.将粒计算方法与统计学习方法相结合,提出了一个更优的粒计算统计学习方法.给出了一个基于粒计算的统计分类算法,并与支持向量机(support vector machine,SVM)、覆盖算法进行了比较,实验表明通过粒化所得到的支持向量求解出的分类结果较优.  相似文献   

13.
深度学习算法的有效性依赖于大量的带有标签的数据,迁移学习的目的是利用已知标签的数据集(源域)来对未知标签的数据集(目标域)进行分类,因此深度迁移学习的研究成为了热门。针对训练数据标签不足的问题,提出了一种基于多尺度特征融合的领域对抗网络(Multi-scale domain adversarial network, MSDAN)模型,该方法利用生成对抗网络以及多尺度特征融合的思想,得到了源域数据和目标域数据在高维特征空间中的特征表示,该特征表示提取到了源域数据和目标域数据的公共几何特征和公共语义特征。将源域数据的特征表示和源域标签输入到分类器中进行分类,最终在目标域数据集的测试上得到了较为先进的效果。  相似文献   

14.
It is challenging to model the performance of distributed graph computation. Explicit formulation cannot easily capture the diversified factors and complex interactions in the system. Statistical learning methods require a large number of training samples to generate an accurate prediction model. However, it is time-consuming to run the required graph computation tests to obtain the training samples. In this paper, we propose TransGPerf, a transfer learning based solution that can exploit prior knowledge from a source scenario and utilize a manageable amount of training data for modeling the performance of a target graph computation scenario. Experimental results show that our proposed method is capable of generating accurate models for a wide range of graph computation tasks on PowerGraph and GraphX. It outperforms transfer learning methods proposed for other applications in the literature.  相似文献   

15.
TrSVM:一种基于领域相似性的迁移学习算法   总被引:1,自引:0,他引:1  
迁移学习是对传统监督学习的扩展,试图利用其他相关领域中的现存数据来帮助完成当前领域的学习任务.对于归纳式迁移学习算法,当目标领域只有少量数据时,已有的算法容易受到选择性偏差的影响,不能充分发挥相关领域数据的作用.为解决该问题,提出一种利用领域相似性的新途径:通过定义领域弱相似性的概念,将相似性的约束与目标分类器联系起来,能在训练过程中有效利用相关领域的大量数据,设计出一种基于支持向量机的迁移学习算法TrSVM,并给出求解过程.在大量数据集上的实验结果表明了新算法的有效性.  相似文献   

16.
为了提高专业领域中文分词性能,以及弥补专业领域大规模标注语料难以获取的不足,该文提出基于深度学习以及迁移学习的领域自适应分词方法。首先,构建包含词典特征的基于深度学习的双向长短期记忆条件随机场(BI-LSTM-CRF)分词模型,在通用领域分词语料上训练得到模型参数;接着,以建设工程法律领域文本作为小规模分词训练语料,对通用领域语料的BI-LSTM-CRF分词模型进行参数微调,同时在模型的词典特征中加入领域词典。实验结果表明,迁移学习减少领域分词模型的迭代次数,同时,与通用领域的BI-LSTM-CRF模型相比,该文提出的分词方法在工程法律领域的分词结果F1值提高了7.02%,与预测时加入领域词典的BI-LSTM-CRF模型相比,分词结果的F1值提高了4.22%。该文提出的分词模型可以减少分词的领域训练语料的标注,同时实现分词模型跨领域的迁移。  相似文献   

17.
小样本学习是视觉识别中的一个受关注的领域,旨在通过少量的数据来学习新的视觉概念。为了解决小样本问题,一些元学习方法提出从大量辅助任务中学习可迁移的知识并将其应用于目标任务上。为了更好地对知识进行迁移,提出了一种基于记忆的迁移学习方法。提出一种权重分解策略,将部分权重分解为冻结权重与可学习权重,在迁移学习中通过固定冻结权重,仅更新可学习权重的方式来减少模型需要学习的参数。通过一个额外的记忆模块来存储之前任务的经验,在学习新任务时,这些经验被用来初始化模型的参数状态,以此更好地进行迁移学习。通过在miniImageNet、tieredImageNet以及CUB数据集上的实验结果表明,相对于其他先进的方法,该方法在小样本分类任务上取得了具有竞争力甚至是更好的表现。  相似文献   

18.
In the plethora of conceptual and algorithmic developments supporting data analytics and system modeling, humancentric pursuits assume a particular position owing to ways they emphasize and realize interaction between users and the data. We advocate that the level of abstraction, which can be flexibly adjusted, is conveniently realized through Granular Computing. Granular Computing is concerned with the development and processing information granules-formal entities which facilitate a way of organizing knowledge about the available data and relationships existing there. This study identifies the principles of Granular Computing, shows how information granules are constructed and subsequently used in describing relationships present among the data.   相似文献   

19.
随着具有结点属性信息的网络图数据的增加,结点属性及结点链接关系越来越复杂,这对复杂网络的链接预测任务带来了一系列的挑战.这些不同来源的原始数据之间存在着不一致性,即结点的属性诱导的潜在链接关系与网络拓扑结构观测到的链接边之间存在着不一致的情况,这一现象将直接影响结点对之间的链接预测准确性与精确性.为了有效处理多源数据的不一致性,融合异构数据的差异,借助粒计算思想,通过对原始数据的多粒度表示,将原始数据在不同层次的粒度进行信息表示建模.最终依据这些数据的粒度表示,寻找最优的粒层结构,并最大化地消除数据内在的不一致性.首先,定义了数据的粒度不同层次表示及粒层关系;其次,对所观测到的链接数据,构建对数似然统计模型,并综合不同粒度层数据特点对模型进行修正;最后,使用多源数据训练统计模型,将学习好的模型用于预测结点对之间的链接概率.实验表明:与现有链接预测模型相比,多源数据经过粒度表示极大地平衡了多源数据的不一致性,有效提升了链接预测任务的准确性.  相似文献   

20.
一种面向多源领域的实例迁移学习   总被引:1,自引:0,他引:1  
在迁移学习最大的特点就是利用相关领域的知识来帮助完成目标领域中的学习任务,它能够有效地在相似的领域或任务之间进行信息的共享和迁移,使传统的从零开始的学习变成可积累的学习,具有成本低、效率高等优点.针对源领域数据和目标领域数据分布类似的情况,提出一种基于多源动态TrAdaBoost的实例迁移学习方法.该方法考虑多个源领域知识,使得目标任务的学习可以充分利用所有源领域信息,每次训练候选分类器时,所有源领域样本都参与学习,可以获得有利于目标任务学习的有用信息,从而避免负迁移的产生.理论分析验证了所提算法较单源迁移的优势,以及加入动态因子改善了源权重收敛导致的权重熵由源样本转移到目标样本的问题.实验结果验证了此算法在提高识别率方面的优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号