共查询到19条相似文献,搜索用时 62 毫秒
1.
答案选择是自动问答系统中的关键任务之一,其主要目的是根据问题与候选答案的相似性对候选答案进行排序,并选择出相关性较高的答案返回给用户。可将其看作成一个文本对的匹配问题。该文利用词向量、双向LSTM、2D神经网络等深度学习模型对问题—答案对的语义匹配特征进行了提取,并将其与传统NLP特征相结合,提出一种融合深度匹配特征的答案选择模型。在Qatar Living社区问答数据集上的实验显示,融合深度匹配特征的答案选择模型比基于传统特征的模型MAP值高5%左右。 相似文献
2.
3.
近年来,信息量成倍增长,获取有效信息的代价越来越高,答案选择技术能够为用户直接提供所需的信息,具有革命性的意义。给定问题和候选答案,答案选择任务要求从候选答案中找出与问题最相关的答案。不失一般性,候选答案根据与问题的匹配程度可以分为三种类型:不相关、相关不合理、相关且合理。然而,已有工作仅考虑问题与答案的相关性,这对于精准问答是远远不够的。为此,提出多阶段匹配模型(MSMM),模拟人的答题过程。具体的,MSMM模型分为两个阶段,第一阶段先将简单易解决的问答对分离出去,第二阶段再综合推理复杂的问答数据。每一阶段都由嵌入层、编码层、对齐层、融合层和池化层组成。此外,为了增强模型的推理能力,还引入语义角色标注信息和单词相似矩阵信息。为了便于评估,基于WikiQA和InsuranceQA数据集构造了两个答案合理性数据集。实验结果表明,对比基准方法,该模型在性能上取得一致的提升。 相似文献
4.
相似度匹配是自然语言处理领域一个重要分支,也是问答系统抽取答案的重要途径之一.本文提出了一种基于正负样本和Bi-LSTM的文本相似度匹配模型,该模型首先为了提升问题和正确答案之间的相似度,构建正负样本问答对用于模型训练;其次为了解决分词错误引起的实验误差,采用双层嵌入词向量方法进行预训练;再次为了解决注意力机制导致的特... 相似文献
5.
6.
7.
基于潜在语义分析的汉语问答系统答案提取 总被引:24,自引:0,他引:24
为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,对大量问答作句子语料统计分析,构建了一个潜在的词一句子语义空间,从而消除了词之间的相关性,并在语义空间上实现了问题与答案句子相似度计算,有效地解决了词的同义和多义问题.最后结合问题类型和相似度计算结果,对汉语基于事实的简单陈述问题进行了答案句子提取实验.答案提取的MRR值达到了0.47,明显优于空间向量模型.结果说明该方法具有很好的效果. 相似文献
8.
基于改进词袋模型的相似关键帧匹配方法 总被引:1,自引:0,他引:1
对相似关键帧匹配中存在的低效率及无法很好反映语义特征的问题进行了分析,提出了基于词袋模型的关键帧描述方法,并进一步考虑了视觉词汇表的生成、降维以及词项权重赋予等关键问题,最后利用词袋特征对相似关键帧进行匹配。实验结果表明,提出的基于改进词袋模型的相似关键帧匹配方法不仅能在一定程度上提高匹配准确率,并且能够较大幅度地提高相似关键帧匹配的速度。 相似文献
9.
主题模型能够从海量文本数据中挖掘语义丰富的主题词,在文本分析的相关任务中发挥着重要作用。传统LDA主题模型在使用词袋模型表示文本时,无法建模词语之间的语义和序列关系,并且忽略了停用词与低频词。嵌入式主题模型(ETM)虽然使用Word2Vec模型来表示文本词向量解决上述问题,但在处理不同语境下的多义词时,通常将其表示为同一向量,无法体现词语的上下文语义差异。针对上述问题,设计了一种基于BERT的嵌入式主题模型BERT-ETM进行主题挖掘,在国内外通用数据集和《软件工程》领域文本语料上验证了所提方法的有效性。实验结果表明,该方法能克服传统主题模型存在的不足,主题一致性、多样性明显提升,在建模一词多义问题时表现优异,尤其是结合中文分词的WoBERT-ETM,能够挖掘出高质量、细粒度的主题词,对大规模文本十分有效。 相似文献
10.
答案抽取是问答系统的关键技术。根据对问题-答案的分析可知,它们之间不仅存在语义上的相似性,而且还有句法上的关联性。提出了一种基于问题-答案之间句法模式和句子语义二元特征融合的答案抽取方法。通过对不同的特征赋予不同的权值来调节各特征对答案抽取准确率计算的贡献。与其他方法相比,描述答案的信息更加全面,答案抽取更加准确。 相似文献
11.
基于句法结构特征分析及分类技术的答案提取算法 总被引:1,自引:0,他引:1
由于中文自然语言处理的特点和困难以及相应的语言处理基础资源的相对缺乏,使得国外一些成熟技术和研究成果不能直接应用到中文问答系统中.为此,针对中文事实型问答系统,提出一种新的基于句法结构特征分析及分类技术的答案提取算法,该方法将答案提取问题看成是候选答案的分类问题,即将候选答案分类为正确和错误两类.首先,该方法根据与问题类型所对应的候选答案的类型信息,从文本片断中提取出候选答案及其在句子中的简单特征和句法结构特征;然后利用这些特征训练分类器;最后用训练得到的分类器判别候选答案是否为正确答案.针对中文事实性问题,该方法与目前典型的基于模式匹配的中文答案提取算法相比,准确率提升6.2%,MRR提升9.7%. 相似文献
12.
基于问句语料库的受限领域自动应答系统 总被引:3,自引:0,他引:3
自动应答系统中对用户所提问句的理解是系统实现的关键,同样也是一个难点,通过在受限领域内建立问句语料库来协助理解用户问句是一种非常有效的实现方法。文章分析了建行领域业务咨询系统的问句收集、分词和词性标注、语义标注、问句语料统计等问句语料库的建设过程,并详细介绍了采用词向量空间法和语义向量空间法从问句语料库中寻找和目标问句相似问句的计算方法及提取答案的实现过程。 相似文献
13.
14.
基于信息检索的开放领域问答系统,其主要原理是先使用语义分析工具和知识库获得确定性的语义和知识等信息,然后再进行问答句匹配度计算.但在实际的中文问答系统应用中,由于中文语言表达的不确定性和中文知识表达的不确定性大量存在,现有的匹配度计算方法不适合大量不确定性存在的应用场景.针对这一问题,提出了一种基于粗糙集知识发现的中文问答检索方法,利用粗糙集的属性约简方法和上近似概念从已标注的问答语料库中发现并表示知识,再结合传统的句子相似度方法对问句和候选句进行匹配度计算.实验结果表明:相对传统的问答检索方法,该方法在MAP和MRR两个评测指标上均有提升. 相似文献
15.
视频问答是深度学习领域的研究热点之一,广泛应用于安防和广告等系统中.在注意力机制框架下,建立先验MASK注意力机制模型,使用Faster R-CNN模型提取视频关键帧以及视频中的对象标签,将其与问题文本特征进行3种注意力加权,利用MASK屏蔽与问题无关的答案,从而增强模型的可解释性.实验结果表明,该模型在视频问答任务中... 相似文献
16.
问题生成任务是指根据给定的文本段落和答案来自动生成对应的问题。针对现有问题生成方法存在的误差累积现象以及问题生成任务固有的“一对多”情况,提出一种带有关键词感知功能的问题生成方法。在预训练语言模型的基础上,实现关键词分类模型与问题生成模型的网络结构设计。输入文本段落中蕴含关键词,为使所生成的问题中包含同样的关键词以保证问题与段落的语义一致性,利用关键词分类模型提取出文本段落中的关键词,将关键词与非关键词的区分特征融入问题生成模型的输入中,该特征作为问题生成过程的全局信息,用以消除问题生成模型仅依赖局部最优解的弊端,减少误差累积与“一对多”情况的发生。在SQuAD数据集上的实验结果表明,该方法能够提升问题生成的质量,其BLEU-4指标值可达24,优于带有复制机制、带有语义监督的问题生成模型,目前已经借助百度百科数据平台实现了大规模工业应用。 相似文献
17.
18.
向量空间模型是最常用的信息检索模型,它根据词频来计算文档之间的相关度,这种方法虽然能够满足用户的基本检索需求,但是对于检索要求较高的用户,其效果仍然不甚理想。文中在向量空间模型的基础上,首先通过领域本体和上层本体来计算特征词项之间的相似度,据此得出与查询词相关的词,在求词项频率和逆文档频率时考虑这些词,然后引入了词序相关度和词语相邻相关度这两个概念,把特征项的位置关系也考虑进来。实验结果表明,文中提出的模型相比原始向量空间模型,在准确率上有了较大的改善。这完全说明,与原始向量空间模型相比,文中提出的检索模型不仅考虑了与原有词项具有相似语义的词项,而且还考虑了词项顺序和词项相邻信息,从而更能符合用户的检索要求。 相似文献
19.
一种基于词义向量模型的词语语义相似度算法 总被引:1,自引:0,他引:1
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度. 相似文献