首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
问句复述识别任务旨在判断两个自然问句的语义是否等价。问句的语义理解与交互是解决该任务的关键因素。现有工作通常基于问句的语义级编码,通过融合或交互的方式,抽取问句的浅层语义特征,以此支持复述问句之间的语义计算。但是如果能找到两个问句的相同点和不同点,就可以基于这些信息得到更为准确的判断结果。基于此想法,该文提出了语义正交化匹配方法,将语义正交化引入到问句复述识别任务中。通过语义正交化方法将每个问句拆分为与另一个问句的相似表示和差异表示,这不仅丰富了问句的语义表示,而且实现了问句的多粒度特征语义融合。该文在中文数据集LCQMC和英文数据集Quora上进行实验,证明了语义正交化匹配方法在问句复述识别任务中的有效性。  相似文献   

2.
提出一个深层次的问句语义分析算法,实现问句从文字空间到语义空间的映射。在问句语义分析算法的基础上,提出面向海量问答数据的检索模型,该模型采用搜索引擎的检索技术,利用问句语义分析的结果,将问句相似度计算结合到信息检索过程中,既保证了检索的效率又保证了检索的精度。  相似文献   

3.
针对现有方法准确率不高、不能充分捕捉句子深层次语义特征的问题,提出一种基于Transformer编码器网络的问句相似度计算方法。在获取句子语义特征前引入交互注意力机制比较句子间词粒度的相似性,通过注意力矩阵和句子矩阵相互生成彼此注意力加权后的新的句子表示矩阵,将获取的新矩阵同原始矩阵拼接融合,丰富句子特征信息;将拼接后的句子特征矩阵作为Transformer编码器网络的输入,由Transformer编码器分别对其进行深层次语义编码,获得句子的全局语义特征;通过全连接网络和Softmax函数对特征进行权重调整,得到句子相似度。在中文医疗健康问句数据集上模型取得了90.2%的正确率,较对比模型提升了将近4.2%,验证了该方法可以有效提高句子的语义表示能力和语义相似度的准确性。  相似文献   

4.
基于概念图的中文FAQ问答系统   总被引:1,自引:1,他引:0       下载免费PDF全文
卜文娟  张蕾 《计算机工程》2010,36(14):29-31
提出一种利用概念图计算问句相似度的方法,并在此基础上实现基于概念图的中文FAQ问答系统,在该系统中采用概念图的形式表示用户问句及在FAQ库中找到的候选问句集中的问句,通过改进的概念图语义相似度计算问句相似度,在候选问句集中找到相似的问句并将答案返回给用户。该系统能够自动更新和维护FAQ库。实验结果表明,与基于关键词的句子相似度相比,基于语义的句子相似度提高了问题匹配的准确率。  相似文献   

5.
提出一种基于同义词词林的句子语义相似度方法,借助同义词词林来计算句子的词形相似度,使用向量距离法得到句子间的词序相似度。同时,对句子进行语义依存句法分析。通过对词形、词序、语义依存相似度加权结合获得句子之间的最终相似度。将该方法应用于常问问题问答系统(Frequency Asked Questions, FAQ)的问句匹配。实验结果表明,该方法在问句匹配上相比传统方法具有更高的准确率。  相似文献   

6.
问句复述识别旨在识别两个自然问句是否语义一致。目前,基于表示学习和深度神经网络架构的复述识别技术已取得较好效果。但是,这类方法往往面临复杂度较高且训练难度较大的瓶颈。针对这一问题,该文提出一种快速的多卷积自交互匹配方法。该方法融合了多种句子特征和词义特征,并由此形成分布式表示。在此基础上,这一方法利用卷积神经网络获取短语级的句子向量表示,并利用自交互融合技术将词级与短语级的向量表示进行充分融合,借以获得多粒度句子向量表示。该文将这一方法应用于判定自然语句是否互为复述的二元分类任务中,利用Quora标准问句复述识别语料进行测试。实验结果证明,在不引入外部数据的情况下,该文所提方法与基于双向多视角匹配的基准模型具有可比的性能,但在空间复杂度上具有较高的优越性,并且获得更快训练速度。具体地,该方法训练所需的物理显存比基准模型方法下降80%,训练迭代速度快19倍。  相似文献   

7.
由于传统的问句语义分析主要针对事实类的简单问句,而对于面向开放域的复杂问句缺少有效的语义分析方法。针对这种情况,提出一种新的问句语义分析模型。该模型将问句从文字空间映射到结构化的语义空间,实现问句的语义分析和表示。通过标注问句中的语义信息,模型实现问句分类、问句主题识别、限制信息识别三项分析工作。使用隐马尔科夫支持向量机(HM-SVMs)序列化标注工具实现了模型的自动标注,取得了86.7%的准确率。实验结果表明,HM-SVMs在标注准确率和效率上好于MEMM、CRF、M3N等模型,达到了预期效果。  相似文献   

8.
问题复述识别旨在召回“同质异构”的问句对子(语义相同表述迥异的问句)和摒弃语义无关的噪声问句,对输入的问句对进行“是复述”和“非复述”的二相判别。现有预训练语言模型(如BERT、RoBERTa和MacBERT)被广泛应用于自然语言的语义编码,并取得了显著的性能优势。然而,其优势并未在问句复述问题的求解中得到充分的体现,原因在于: ①预训练语言模型对特定任务中精细的语义表示需求并不敏感; ②复述样本的“是与非”往往取决于极为微妙的语义差异。微调预训练语言模型成为提高其任务适应性的关键步骤,但其极大地依赖训练数据的数量(多样性)与质量(可靠性)。为此,该文提出一种基于生成模型的定向数据增强方法(DDA)。该方法能够利用诱导标签对神经生成网络进行引导,借以自动生成多样的复述和非复述的增强样本(即高迷惑性的异构样本),促进训练数据的自动扩展。此外,该文设计了一种多模型集成的标签投票机制,并用其修正增强样本的潜在标签错误,以此提高扩展数据的可靠性。在中文问题复述数据集LCQMC上的实验结果证明,与传统数据增强方法相比,该文方法生成的样本质量更高,且语义表达更加多元化。  相似文献   

9.
基于问句相似度的中文FAQ问答系统   总被引:5,自引:0,他引:5  
常见问题(FAQ)问答系统是一种在已有的“问题—答案”对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户的问答式检索系统。其关键问题是用户提出问句与FAQ库中问句进行相似度计算,找出FAQ库中最相近的问句,并返回事先存储好的问题答案。通过对常见问句特点的研究,给出一种基于分解的向量空间模型和语义概念的问句相似度计算方法,其主要思想是对一个问句向量进行分解,提取其三个关键部分:问点、主题词和疑问词,表示成三个分向量,然后对每个分向量计算基于《HIT-IRLab同义词词林(扩展版)》的语义相似度,通过线性加权就可以得出两个问句的语义相似度。试验表明,与传统的基于向量空间模型的TF-DF问句相似度计算方法相比,可以提高问句匹配的精度。  相似文献   

10.
自动问答系统问句相似度计算的准确率直接影响系统返回答案的准确率,对此提出一种基于Word2vec和句法规则的问句相似度计算方法。构造Text-CNN问句分类模型将问句进行分类,再构造Word2vec词向量模型将问句中词与词的空间向量相似度转换成语义相似度,并加入句法规则的分析。随机从搜狗公开问答数据集中抽取200条数据进行测试,结果表明,该方法与TF-IDF方法相比,自动问答系统返回答案的准确率和召回率分别提高了0.259和0.154。  相似文献   

11.
王雪松  张淳  程玉虎 《控制与决策》2023,38(12):3499-3506
为缓解传统零样本图像分类模型中存在的领域偏移问题,提出一种基于未知类语义约束自编码的零样本图像分类模型.首先,利用预训练的ResNet101网络提取所有已知类和未知类图像的视觉特征;其次,通过编码器将提取的图像深度视觉特征从视觉空间映射到语义空间;然后,通过解码器将映射后得到的语义向量重构为视觉特征向量,在语义自编码器的训练过程中,利用未知类图像的聚类视觉中心和未知类语义类原型的分布对齐施加约束,以缓解领域偏移问题;最后,基于经编码器预测得到的测试图像语义向量和各测试类语义类原型之间的相似性,采用最近邻算法实现零样本图像分类.在AwA2和CUB数据集上的实验结果表明,所提出模型具有较高的分类准确度.  相似文献   

12.
传统的多标签分类算法是以二值标签预测为基础的,而二值标签由于仅能指示数据是否具有相关类别,所含语义信息较少,无法充分表示标签语义信息。为充分挖掘标签空间的语义信息,提出了一种基于非负矩阵分解和稀疏表示的多标签分类算法(MLNS)。该算法结合非负矩阵分解与稀疏表示技术,将数据的二值标签转化为实值标签,从而丰富标签语义信息并提升分类效果。首先,对标签空间进行非负矩阵分解以获得标签潜在语义空间,并将标签潜在语义空间与原始特征空间结合以形成新的特征空间;然后,对此特征空间进行稀疏编码来获得样本间的全局相似关系;最后,利用该相似关系重构二值标签向量,从而实现二值标签与实值标签的转化。在5个标准多标签数据集和5个评价指标上将所提算法与MLBGM、ML2、LIFT和MLRWKNN等算法进行对比。实验结果表明,所提MLNS在多标签分类中优于对比的多标签分类算法,在50%的案例中排名第一,在76%的案例中排名前二,在全部的案例中排名前三。  相似文献   

13.
问句分类在问答系统领域有着重要的研究意义和应用价值。为了提高自动问句分类识别效率,本文提出了基于藏文疑问虚词的问句分类方法。该方法首先提取问句中的藏文虚词;然后根据所得的虚词进行问句分类;其次,进一步将问句细分为问题大类和小类;最后,给问题贴上分类标签。这种方法,既缩小了检索空间又提高了答案的准确性。最后对各种藏文问句分类的准确性进行了测试。结果表明基于藏文虚词问句的分类方法具有可行性和实用性。  相似文献   

14.
Computation on Sentence Semantic Distance for Novelty Detection   总被引:1,自引:0,他引:1       下载免费PDF全文
Novelty detection is to retrieve new information and filter redundancy from given sentences that are relevant to a specific topic. In TREC2003, the authors tried an approach to novelty detection with semantic distance computation. The motivation is to expand a sentence by introducing semantic information. Computation on semantic distance between sentences incorporates WordNet with statistical information. The novelty detection is treated as a binary classification problem: new sentence or not. The feature vector, used in the vector space model for classification, consists of various factors, including the semantic distance from the sentence to the topic and the distance from the sentence to the previous relevant context occurring before it. New sentences are then detected with Winnow and support vector machine classifiers, respectively. Several experiments are conducted to survey the relationship between different factors and performance. It is proved that semantic computation is promising in novelty detection. The ratio of new sentence size to relevant size is further studied given different relevant document sizes. It is found that the ratio reduced with a certain speed (about 0.86). Then another group of experiments is performed supervised with the ratio. It is demonstrated that the ratio is helpful to improve the novelty detection performance.  相似文献   

15.
基于语义扩展的短问题分类   总被引:1,自引:0,他引:1  
问题分类是问答系统任务之一。特别是语音交互方式中,用户的提问较短,具有口语化特征,利用传统文本分类方法对问题进行分类的效果不佳。为此提出一种基于语义扩展的短问题分类方法,该方法使用搜索引擎对问题进行知识扩展;然后,使用主题模型进行特征词选择;最后,利用词语相似度计算获取问题的类别。实验结果表明,所提方法在1365条真实问题集上平均F-measure值达到0.713,其值高于支持向量机(SVM)、K近邻(KNN)算法和最大熵方法。因此,该方法在问答系统中可以帮助系统提升问题分类的准确率。  相似文献   

16.
自然语言网络答疑系统的研究与实现   总被引:8,自引:0,他引:8  
网络答疑是现代远程教育的重要组成部分,本文提出了一种基于自然语言的新型网络答疑系统的实现模型,介绍其实现原理及框架,并提出了从关键词、提问方式、提问重点三个层次对用户提问进行语义分析、特征向量提取及语义匹配的分析方法.实验结果表明,本文提出的关键技术解决方案能有效分析自然语言提问,提高问题答案匹配的精确率及召回率。  相似文献   

17.
针对年龄变化对人脸识别率影响的问题,结合生成式对抗网络(Generative Adversarial Network,GAN)与深度特征迁移提出一种跨年龄人脸生成方法DFM-GAN(Depth Feature Migration GAN),并进行跨年龄模拟人脸验证实验研究。首先通过卷积编码器将真实样本映射到特征向量,然后利用反卷积生成器将向量投影到独热编码年龄条件下的人脸集合,通过在特征空间中迁移数据库样本人脸纹理风格、语义特点等属性,模拟生成待检人员在不同年龄段的面部图像,减少与数据库样本之间的差异性。同时通过高斯边缘模糊的方法对样本数据集做预处理,引入边缘提升对抗损失函数,使生成图像具有更为清晰的边缘,对生成图像进行局部颜色直方图匹配,增加对比度,达到提高跨年龄人脸识别性能的目的。进行了单样本不同年龄实验与指定年龄多样本实验,以人脸相似度与人脸距两项指标进行实验测量,结果表明:跨年龄数据样本经过DFM-GAN生成后的人脸图像,相似度平均提高了19.24个百分点,人脸距离平均减少了0.451,在跨年龄人脸识别方向具有较好的可行性和一定的实际意义。  相似文献   

18.
李相葛  罗红  孙岩 《软件学报》2023,34(11):5143-5161
深度神经网络容易受到来自对抗样本的攻击,例如在文本分类任务中修改原始文本中的少量字、词、标点符号即可改变模型分类结果.目前NLP领域对中文对抗样本的研究较少且未充分结合汉语的语言特征.从中文情感分类场景入手,结合了汉语象形、表音等语言特征,提出一种字词级别的高质量的对抗样本生成方法 CWordCheater,涵盖字音、字形、标点符号等多个角度.针对形近字的替换方式,引入ConvAE网络完成汉字视觉向量的嵌入,进而生成形近字替换候选池.同时提出一种基于USE编码距离的语义约束方法避免对抗样本的语义偏移问题.构建一套多维度的对抗样本评估方法,从攻击效果和攻击代价两方面评估对抗样本的质量.实验结果表明, CWordAttacker在多个分类模型和多个数据集上能使分类准确率至少下降27.9%,同时拥有更小的基于视觉和语义的扰动代价.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号