首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
为了解决步态特征提取难题和克服单一视觉的步态进行身份识别方法的局限性,提出一种加权局部判别典型相关分析(WLDCCA)算法。在此基础上,提出一种基于WLDCCA的多视角步态识别方法。该方法通过在WLDCCA中引入样本的类信息和局部信息,将不同视觉的步态特征有机地融合起来,提取的融合特征能够最小化同类样本之间的距离,同时最大化异类样本之间的距离,提高了步态识别的识别率和鲁棒性。在CASIA步态数据库上的实验结果验证了该算法的有效性和可行性。  相似文献   

2.
构造性覆盖算法(constructive covering algorithm,CCA)三支决策模型在学习过程中根据样本分布特征,自动产生正域、负域和边界域。该模型为边界域样本处理问题提供了新的思路。重点讨论了基于CCA的三支决策的边界域样本处理问题。对边界域样本处理提出了两种决策方案:一种为处理全部的边界域样本,给出了距中心最近原则、距边界最近原则、万有引力原则3种方法;另一种为处理部分的边界域样本,即只对满足一定条件的边界域样本作进一步的划分,这样使不满足条件的边界域样本仍保留在边界域,提高了边界域样本处理的正确率。用十字交叉法在5组数据集上对这两种决策方案进行了对比,实验结果表明,处理部分边界域样本时正确率更高,效果更好。  相似文献   

3.
跨语言知识链接是指在描述相同内容的不同语言的在线百科文章之间建立联系。跨语言知识链接可分为候选集选择和候选集排序两部分。首先,把候选集选择问题转换为跨语言信息检索问题,提出一种将标题与关键词相结合从而生成查询的方法,该方法将候选集选择的召回率大幅提高至93.8%;在候选集排序部分,提出一种融合双语主题模型及双语词向量的排序模型,实现了英文维基百科和中文百度百科之间军事领域的跨语言知识链接。实验结果表明,该模型取得了75%的准确率,显著提高了跨语言知识链接的性能,并且提出的方法不依赖于语言特性和领域特性,因此可以很容易地扩展至其他语言和其他领域的跨语言知识链接。  相似文献   

4.
缅甸语属于低资源语言,网络中获取大规模的汉-缅双语词汇一定程度上可以缓解汉-缅机器翻译中面临句子级对齐语料匮乏的问题.为此,本文提出了一种融合主题及上下文特征的汉缅双语词汇抽取方法.首先利用LDA主题模型获取汉缅文档主题分布,并通过双语词向量表征将跨语言主题向量映射到共享的语义空间后抽取同一主题下相似度较高的词作为汉-缅双语候选词汇,然后基于BERT获取候选双语词汇相关上下文的词汇语义表征构建上下文向量,最后通过计算候选词的上下文向量的相似度对候选双语词汇进行加权得到质量更高的汉缅互译词汇.实验结果表明,相对于基于双语词典的方法和基于双语LDA+CBW的方法,本文提出的方法准确率上分别提升了11.07%和3.82%.  相似文献   

5.
直接基于人脸图像空间构建的高低分辨率字典无法满足高度相关的条件,影响了重构的效果.提出了一种基于典型相关分析(CCA)空间的平滑稀疏超分辨率人脸重构方法.将映射到CCA空间的字典进行排序,并进行稀疏更新;将得到的新字典根据输入测试块重新映射到CCA空间;引入平滑稀疏模型.实验结果表明:相对于其他人脸重构方法,所提方法能够取得更好的去噪效果,更清晰的重构效果以及良好的平滑性.  相似文献   

6.
双语词典是跨语言信息检索以及机器翻译等自然语言处理应用中的一项重要资源。现有的基于可比语料库的双语词典提取算法不够成熟,抽取效果有待提高,而且大多数研究都集中在特定领域的专业术语抽取。针对此不足,提出了一种基于词向量与可比语料库的双语词典提取算法。首先给出了该算法的基本假设以及相关的研究方法,然后阐述了基于词向量利用词间关系矩阵从可比语料库中提取双语词典的具体步骤,最后将该抽取方法与经典的向量空间模型做对比,通过实验分析了上下文窗口大小、种子词典大小、词频等因素对两种模型抽取效果的影响。实验表明,与基于向量空间模型的方法相比,本算法的抽取效果有着明显的提升,尤其是对于高频词语其准确率提升最为显著。  相似文献   

7.
田星  郑瑾  张祖平 《计算机科学》2018,45(7):186-189
通过对传统Jaccard算法的研究和改进,提出了一种基于词向量的Jaccard句子相似度算法。传统的Jaccard算法以句子的字面量为特征,因而在语义层面的相似度计算方面受到了一定的限制。而随着深度学习的兴起,尤其是词向量的提出,词语在计算机中的表示有了突破性的进展。该算法首先通过训练将每个词语映射为语义层面的高维向量,然后计算各个词向量之间的相似度,高于阈值α的作为共现部分,最终计算句子的相似度。实验表明,相较于传统的Jaccard算法,该算法在短文本相似度计算的准确率上有较明显的提升。  相似文献   

8.
由于轴承振动信号具有复杂性和非线性,难以有效提取故障特征,影响故障诊断的准确率.为了提高故障诊断准确率,提出一种蝙蝠算法(BA)优化相关向量机(RVM)的轴承故障诊断方法.首先结合变分模态分解和多尺度熵从轴承振动信号中提取出故障特征,作为相关向量机的输入向量;接着采用蝙蝠算法优化相关向量机的核函数参数;然后训练相关向量...  相似文献   

9.
利用支持向量聚类分类准确、参数少、无监督学习的特点,提出一种基于支持向量聚类的图像分割方法。该方法首先对数据集分块并对每块进行SVC聚类,再取其簇内均值作为K均值聚类样本点,进行聚类,最后将得到的结果进行合并。实验证明该方法不但改变了传统分割方法中人为选取阈值参数的作法,而且受目标和噪声影响小,提高了图像分割的鲁棒性和效果,能够有效地进行图像分割。  相似文献   

10.
增量式支持向量机学习算法是一种重要的在线学习方法。传统的单增量支持向量机学习算法使用一个数据样本更新支持向量机模型。在增加或删除的数据样本点较多时,这种模型更新模式耗时巨大,具体原因是每个被插入或删除的样本都要进行一次模型参数更新的判断。该文提出一种基于参数规划的多重增量式的支持向量机优化训练算法,使用该训练算法,多重的支持向量机的训练时间大为减少。在合成数据集及真实测试数据集上的实验结果显示,该文提出的方法可以大大降低多重支持向量机训练算法的计算复杂度并提高分类器的精度。  相似文献   

11.
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。  相似文献   

12.
针对日渐丰富的少数民族语言资源进行管理、研究和使用有着重要的应用价值。为了解决语言差异引起的语言鸿沟,针对中朝两种语言环境下的跨语言文本分类任务,提出了双语主题词嵌入模型。该文将词嵌入模型与主题模型扩展到双语环境,并将两种模型相结合,解决了歧义性对跨语言文本分类精度带来的影响。首先,在大规模单词级别对齐平行句对中训练中朝单词的词嵌入向量;其次,利用主题模型对中朝分类语料进行表示,并获得中朝单词的含有主题信息的词嵌入向量;最后,将中朝单词的主题词嵌入向量输入至文本分类器,进行模型的训练与分类预测。实验结果表明,中朝跨语言文本分类任务的准确率达到了91.76%,已达到实际应用的水平,同时该文提出的模型可以对一词多义单词的多个词义有很好的表示。  相似文献   

13.
基分类器的差异性对于集成学习来说至关重要,从直观上讲,对约束重采样有潜力获得比对样本重采样更好的多样性。文中在典型相关分析算法基础上,通过引入成对约束作为监督信息对样本进行特征抽取从而形成新的训练数据。算法中集成学习的思想主要体现在成对约束的选取上,对约束进行随机重采样以获得具有多样性的基分类器。在多特征手写体数据集以及人脸数据集(Yale和AR)上进行实验考察该算法随选取的约束比例变化的情况,结果表明该方法获得比传统集成学习方法更好的性能。  相似文献   

14.
以Word2Vec为代表的静态蒙古文词向量学习方法,将处于不同语境的多种语义词汇综合表示成一个词向量,这种上下文无关的文本表示方法对后续任务的提升非常有限。通过二次训练多语言BERT预训练模型与CRF相结合,并采用两种子词融合方式,提出一种新的蒙古文动态词向量学习方法。为验证方法的有效性,在内蒙古师范大学蒙古文硕博论文的教育领域、文学领域数据集上用不同的模型进行了同义词对比实验,并利用K-means聚类算法对蒙古文词语进行聚类分析,最后在嵌入式主题词挖掘任务中进行了验证。实验结果表明,BERT学出的词向量质量高于Word2Vec,相近词的向量在向量空间中的距离非常近,不相近词的向量较远,在主题词挖掘任务中获取的主题词有密切的关联。  相似文献   

15.
针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法。首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous skip-gram model)在大规模语料中训练得到表示特征词语义的词向量;最后,引入词语游走距离(Word mover′s distance,WMD)来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类。在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法,平均F值较次优结果提高了56.41%。  相似文献   

16.
词向量是一种词语的数字化的表达。基于神经网络模型,利用语料中词语之间的上下文关系这一约束条件,通过大量训练得到词向量。词向量在表达词的语义上的表现给人以无限的希望与想象空间,基于词向量的文本分类、人机对话、智能检索等得到了广泛的研究。该文针对校园信息查询的特定应用,建立了所涉及词语的分类本体,除了利用语料中词语上下文关系外,还将本体知识作为约束条件进行词向量的训练,增强了词向量的语义表达。基于skip-gram模型,采用多任务的神经网络训练方法,在自己收集的语料上训练得到了针对领域的词向量。实验表明,基于领域知识的增强约束词向量能够更准确地表达词的语义信息。  相似文献   

17.
文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网络经过最大池化层来学习上下文显著信息特征,结合两者来优化特征提取过程从而提高文本分类效果.与此同时,在嵌入层中提出了一种基于缺失词补全的混合词向量方法,采用两种策略来减少缺失词过度匹配的现象以及降低词向量中的噪声数据出现的概率,从而获得语义丰富且少噪声的高质量词向量.在经典文本分类数据集中进行实验,通过与对比模型的最优方法进行比较,证明了该模型和方法能有效地提升文本分类准确度.  相似文献   

18.
为了避免图像分割,并提高图像标注精度,提出一种基于典型相关分析(CCA)和高斯混合模型(GMM)的自动图像标注方法.利用CCA对图像的全局颜色特征与全局局部二值模式(LBP)纹理特征进行特征融合.使用融合后的语义特征,对每一个关键词建立GMM模型来估计单词类密度,从而在特征子空间中得到每个单词的概率分布.采用贝叶斯分类器确定每个标注词和测试图像的联合概率,运用词间语义关系优化标注结果.实验结果表明,使用该方法后的图像标注性能有了较大程度的改善.  相似文献   

19.
用户移动上网访问基站的轨迹数据从时间和空间上反映了用户的生活习惯和行为模式。时间和空间信息同时产生不应分别考虑。因此,该文在传统的TF-IDF方法基础上提出了与时间相关的TFT-IDFT方法,用以提取轨迹点语义信息,进而采用word2vec方法将轨迹数据转化为文档分析。提取包含位置信息和语义信息的轨迹时空词向量,在此基础上建立多分类模型对用户所属年龄段进行识别。实验结果表明,改进的TFT-IDFT方法在提取轨迹语义时更具合理性,且基于此方法构建的轨迹时空词向量应用于分类模型,对用户所属年龄阶段的识别效果更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号