共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
词义消歧长期以来一直是自然语言处理中的热点和难题,集成方法被认为是机器学习研究的四大趋势之一.系统研究了9种集成学习方法在汉语词义消歧中的应用.9种集成方法分别是乘法规则、均值、最大值、最小值、多数投票、序列投票、加权投票、概率加权和单分类器融合,其中乘法规则、均值、最大值3种集成方法还未曾应用于词义消歧.选取支持向量机模型、朴素贝叶斯和决策树作为3个单分类器.在两个不同的数据集上进行了实验,其一是选自现代汉语语义标注语料库的18个多义词,其二是国际语义评测SemEval-2007的中英文对译选择词消歧任务.实验结果显示,首次在词义消歧中引入应用的3种集成方法乘法、均值、最大值有良好的性能表现,3种方法的消歧准确率均高于最佳单分类器SVM,而且优于其他6种集成方法. 相似文献
3.
词义消歧一直是自然语言处理中的热点和难题。集成方法被认为是机器学习研究的四大趋势之一,在系统研究已有集成学习方法在汉语词义消歧中的应用后,借鉴模式识别领域集成分类器思想,提出了一种动态自适应加权投票的多分类器集成方法来构建融合分类器。实验结果表明,所提融合分类器模型对汉语文本自动消歧结果的准确率提高较大。 相似文献
4.
5.
6.
1 词义消歧及其应用词义是词汇在一定的语言环境下反映的特定语言现象。它能够明确地表达该词汇在该语境下表达的语义属性如感知、行为和情绪等;表达该词汇与相关词汇之间的关系;并且表达该词汇所特有的知识及常识性的知识。透过词义,人们将能运用自己的思维描述该语言现象,对其进行推理,或者为指代词从上下文中找到指代物。在自然语言中,一个词汇往往存在多个词义,称为词的多义性。例如:Bank有“银行”、“河岸”的意思。但是当词汇处于一定的语言环境,则只有唯一的意思。例如;“He slipped down the bank”中,bank的意思是“河岸”。词义消歧就是使计算机自动为词汇选择正确意思,是自然语言处理领域中词汇级别上的最大难题。词义消歧不是自然语言处理的最终目的,而是自然语言处理中不可缺少的一个环节。其应用至少包括下述领域: 相似文献
7.
离合词词义消歧要解决如何让计算机理解离合词中的歧义词在具体上下文中的含义。针对离合词中歧义词在机器翻译中造成的对照翻译不准确以及在信息检索中无法匹配有效信息等问题,将词义消歧的方法应用于离合词中的歧义词,采用SVM模型建立分类器。为了提高离合词词义消歧的正确率,在提取特征时,结合离合词的特点,不仅提取了歧义词上下文中的局部词、局部词性、局部词及词性3类特征,还提取了“离”形式的歧义词的中间插入部分的特征;将文本特征转换为特征向量时,对布尔权重法进行了改进,依次固定某种类型特征权重,分别改变另外两种类型特征权重的消歧正确率来验证3类特征的消歧效果。实验结果表明,局部词特征、局部词及词性特征对消歧效果的影响高于局部词性特征,且采用不同类型的特征权重与采用相同的权重相比,消歧正确率提高了1.03%~5.69%。 相似文献
8.
提出了一种对数模型(logarithmmodel,简称LM),构造了一个词义自动消歧系统LM-WSD(wordsensedisambiguationbasedonlogarithmmodel).在词义自动消歧实验中,构造了4种计算模型进行词义消歧,根据4个计算模型的消歧结果,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响.目前,该词义自动消歧系统LM-WSD已经应用于基于词层的英汉机器翻译系统(汽车配件专业领域)中,有效地提高了翻译性能. 相似文献
9.
简要介绍了PageRank算法的核心思想,阐述了知网知识库在词义消歧中的作用,并提出将两者结合起来进行词义消歧的办法.对比了传统统计的消歧方法和该方法的优缺点,重点解释了如何将该算法运行到语义网络中去.介绍了使用知网义原概念和联系进行构图的方法,并对算法实现思想做了详细说明,最后通过一个实例简要概括了基于该算法和知网词义消歧的方法,并给出了少量测试数据,提出了研究中存在的困难和下一步的研究重点. 相似文献
10.
自然语言处理(NLP)旨在如何让计算机更好的理解人类的语言,但是在自然语言中句段、词汇本身存在多义和歧义,计算机无法将其转换为能识别的二进制编码,这是当下NLP领域内存在的最大问题。本文将Viterbi算法的词性标注模型、CBOW语言模型及K-Means聚类算法组合,构建一种基于词向量的多义词组合消歧模型(VCK-Vector)。通过词性分布对比、语义相关度任务和聚类效果分析等方法评测模型,最后通过百度AI词向量与模型输出结果进行对比。结果显示基于VCK-vector模型在实际场景运用中是可行的。 相似文献
11.
论文提出了一种新的基于人脸检测的安保监控系统。采用Haar矩形作为特征,运用AdaBoost算法选取适当的分类器进行人脸检测,将检测到的人脸信息,以系统时间为标签存入到数据库中,并提供了查询和检索等功能。实验证明,该系统能够在各种特殊的环境有效地检测到人脸信息,并将检测到的信息以时间为标签存入数据库,极大地方便了监控录像的查询与检索。 相似文献
12.
13.
提出了一种使用基于贝叶斯的基分类器建立组合分类器的新方法PCABoost.本方法在创建训练样本时,随机地将特征集划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将全部的训练数据映射到新的特征空间作为新的训练集.通过不同的变换生成不同的特征空间,从而产生若干个有差异的训练集.在每一个新的训练集上利用AdaBoost建立一组基于贝叶斯的逐渐提升的分类器(即一个分类器组),这样就建立了若干个有差异的分类器组,然后在每个分类器组内部通过加权投票产生一个预测,再把每个组的预测通过投票来产生组合分类器的分类结果,最终建立一个具有两层组合的组合分类器.从UCI标准数据集中随机选取30个数据集进行实验.结果表明,本算法不仅能够显著提高基于贝叶斯的分类器的分类性能,而且与Rotation Forest和AdaBoost等组合方法相比,在大部分数据集上都具有更高的分类准确率. 相似文献
14.
15.
蛋白质-蛋白质相互在细胞生命过程扮演重要角色,广泛参与免疫反应,信号传导,基因表达,蛋白质合成等,研究蛋白质-蛋白质作用位点,将有助于揭示生命过程的许多本质,对预防、诊断疾病,以及突变设计、蛋白质相互作用网络构建等方面均具有重要的参考价值.根据蛋白质.蛋白质作用位点残摹倾向性及作用位点与其周围临近残基密切相关的特性,本文提出基于序列谱(或空间谱)构建自相关函数,度量邻近残基之间的相关程度,采用AdaB00st分类器预测蛋白质-蛋白质相互作用位点,精度达到67.6%,表明本文的方法预测蛋白质-蛋白质相互作用位点是有效的,为研究蛋白质-蛋白质相互作用位点研究提供了一种新方法. 相似文献
16.
17.
工程实际中,往往通过对比两个AdaBoost算法在相同弱分类器数量条件下的错分率来比较算法性能,这样就忽略了在弱分类器数量增加时,错分率的波动会造成对比不准确的问题。为此,分别针对分类器性能的分类准确率、收敛速度和稳定性,提出了稳态错分率、调节规模、振荡度三个量化指标,构成了一个相对完备的评价体系。实验表明,该评价体系能更全面反映AdaBoost的分类效果。 相似文献
18.
基于AdaBoost算法与肤色模型的多姿态人脸检测 总被引:1,自引:1,他引:0
赵男男 《计算机工程与科学》2011,33(5):85-90
针对AdaBoost算法对多姿态人脸检测效果不理想和肤色模型对复杂背景下的图像误检率高的问题,本文将基于肤色的人脸检测与基于AdaBoost算法的人脸检测结合,提出一种由偏到正的检测方法.主要是通过旋转图片,使人脸分类器不会因为角度问题产生漏检,然后根据分类器检测出的两眼,计算两眼之间的位置关系,判断人脸是否处于正面位... 相似文献
19.
20.
付忠良 《计算机研究与发展》2009,46(7):1206-1216
通过多个分类器的组合来提升分类精度是机器学习领域主要研究内容,弱学习定理保证了这种研究的可行性.分类器的线性组合,也即加权投票,是最常用的组合方法,其中广泛使用的AdaBoost算法和Bagging算法就是采取的加权投票.分类器组合的有效性问题以及最佳组合问题均需要解决.在各单个分类器互不相关和分类器数量较多条件下,得到了分类器组合有效的组合系数选取条件以及最佳组合系数公式,给出了组合分类器的误差分析.结论表明,当各分类器分类错误率有统一的边界时,即使采取简单投票,也能确保组合分类器分类错误率随分类器个数增加而以指数级降低.在此基础上,仿照AdaBoost算法,提出了一些新的集成学习算法,特别是提出了直接面向组合分类器分类精度快速提升这一目标的集成学习算法,分析并指出了这种算法的合理性和科学性,它是对传统的以错误率最低为目标的分类器训练与选取方法的延伸和扩展.从另一个角度证明了AdaBoost算法中采用的组合不仅有效,而且在一定条件下等效于最佳组合.针对多分类问题,得到了与二分类问题类似的分类器组合理论与结论,包括组合有效条件、最佳组合、误差估计等.还对AdaBoost算法进行了一定的扩展. 相似文献