首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
复述抽取是自然语言处理任务中的一个重要分支,高质量的复述资源对于提升信息检索、问答系统、机器翻译等任务的效果有很大帮助。该文将任务限定在中文短语复述抽取,提出了基于2BiLSTM+CNN+CRF的序列标注模型,用于单语中文语料短语划分,通过若干过滤规则获取优质中文短语。之后又提出了基于表示学习的候选复述获取方法,通过BattRAE模型获取中文短语向量表示,并使用余弦相似度计算短语间的语义距离。该文根据语义距离对短语对进行过滤,将语义距离相近的短语视作候选的复述短语,再通过规则过滤掉错误的候选复述。在最后的结果中,随机抽取出500条短语复述资源进行人工评价,达到了0.814的精确度以及0.826的MRR值。  相似文献   

2.
蔡宇  杨广超 《计算机工程》2011,37(21):29-31
根据用户提交的查询请求,利用统计语言模型计算查询请求和问句之间的相似度,确定用户查询词所代表的信息需求,由此从海量数据中检索出可以满足该信息需求的问答对,并使用答案质量评估模型对其进行评估。实验结果表明,该问题检索模型可以根据用户请求提供具有较高质量的问答对答案。  相似文献   

3.
目前,关于问答的大部分研究都是面向正式文本的问答对。然而,与以往研究不同的是,该文关注于社会媒体上存在的非正式文本问答对。非正式文本会存在问题文本里包含多个问题以及回答文本里包含多个回答的情况。针对该情况,我们提出了一个新的任务: 问答配对,即对问题文本的每个问题,从答案文本中找到和该问题相关的句子。首先,我们从产品问答网站上收集了大规模非正式文本问答对,并在此基础上创建了一个产品问答配对语料库。其次,为了解决非正式文本中存在的噪声问题,提出了一种基于注意力机制的上下文相关的问答配对方法。实验结果表明,该文提出的方法能有效地提升非正式文本的问答配对的性能。  相似文献   

4.
基于互联网和self-training的中文问答模式学习   总被引:1,自引:0,他引:1  
在已有的问答模式学习中,模式定义和候选答案评分偏于简单,而且学习过程依赖于人工标定语料。通过挖掘Web文本中动、名词序列的骨架模式,用以扩充模式定义;将self-training学习机制引入问答模式学习:用一对训练语料进行初始学习,通过互联网搜索,自动选择可靠程度较高的问答对,重新训练;扩充了启发规则,改进候选答案的评分方法。实验结果表明:所提出的问答模式学习方法能有效地提高中文问答系统的性能。  相似文献   

5.
关键短语的抽取在文本聚类、分类、检索等方面有着重要的作用。利用经典的TF-IDF算法来提高文本关键短语抽取的质量。通过对TF-IDF算法的研究,发现TF-IDF可以综合利用单个文本信息和文本集合信息抽取文本关键词。在此基础上,提出一种综合TF-IDF、TextRank、统计学知识抽取关键短语的方法和利用候选关键短语逆向文档频率排序的方法。该方法在TextRank基础上,通过TF-IDF引入词的文本集合信息计算词之间权重得到词的得分。然后利用统计学知识从上一步选出词组成的短语筛选出候选关键短语。最后利用逆向文档频率的思想对候选关键短语排序。实验证明,该模型相比于经典TextRank模型准确率提高了2%,召回率提高了4.5%,F-measure提高了3.4%。  相似文献   

6.
自动问答系统可以帮助人们快速从海量文本中提取出有效信息,而答案选取作为其中的关键一步,在很大程度上影响着自动问答系统的性能.针对现有答案选择模型中答案关键信息捕获不准确的问题,本文提出了一种融合语义信息与问题关键信息的多阶段注意力答案选取模型.该方法首先利用双向LSTM模型分别对问题和候选答案进行语义表示;然后采用问题的关键信息,包括问题类型和问题中心词,利用注意力机制对候选答案集合进行信息增强,筛选Top K个候选答案;然后采用问题的语义信息,再次利用注意力机制对Top K个候选答案集合进行信息增强,筛选出最佳答案.通过分阶段地将问题的关键信息和语义信息与候选答案的语义表示相结合,有效提高了对候选答案关键信息的捕获能力,从而提升了答案选取系统的性能.在三个数据集上对本文所提出的模型进行验证,相较已知同类最好模型,最高性能提升达1.95%.  相似文献   

7.
基于句法结构特征分析及分类技术的答案提取算法   总被引:1,自引:0,他引:1  
由于中文自然语言处理的特点和困难以及相应的语言处理基础资源的相对缺乏,使得国外一些成熟技术和研究成果不能直接应用到中文问答系统中.为此,针对中文事实型问答系统,提出一种新的基于句法结构特征分析及分类技术的答案提取算法,该方法将答案提取问题看成是候选答案的分类问题,即将候选答案分类为正确和错误两类.首先,该方法根据与问题类型所对应的候选答案的类型信息,从文本片断中提取出候选答案及其在句子中的简单特征和句法结构特征;然后利用这些特征训练分类器;最后用训练得到的分类器判别候选答案是否为正确答案.针对中文事实性问题,该方法与目前典型的基于模式匹配的中文答案提取算法相比,准确率提升6.2%,MRR提升9.7%.  相似文献   

8.
介绍从平行语料库中如何抽取双语短语翻译对。首先用统计模型正则期望从汉语专利语料库中抽取汉语短语。抽取的短语利用统计知识和语言学知识来过滤,使得过滤后汉语短语的正确率较高;其次,利用词对齐工具Giza++从汉英平行语料库中抽取词汇对齐,在词汇对齐的基础上利用开源工具Moses抽取汉英短语对齐,根据短语对齐与抽取出的高质量汉语短语的交集来抽取候选的汉英互译的源语言短语;接着使用停用词、对数似然估计法LLR和上下文熵来对英语短语翻译进行过滤。实验结果表明,过滤后,抽取的汉语短语准确率为97.6%,汉英短语翻译对的准确率为92.4%。  相似文献   

9.
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。  相似文献   

10.
知识库问答依靠知识库推断答案,需要大量带标注信息的问答对,但构建大规模且精准的数据集不仅代价昂贵,还受领域等因素限制.为缓解数据标注问题,面向知识库的问题生成任务引起了研究者关注,该任务的特点是利用知识库三元组自动生成问题,但现有方法仅由一个三元组生成的问题过于简短,且缺乏多样性.为生成信息量丰富且多样化的问题,该文采...  相似文献   

11.
In this work, a new evolutionary model is proposed for ranking answers to non-factoid (how-to) questions in community question-answering platforms. The approach combines evolutionary computation techniques and clustering methods to effectively rate best answers from web-based user-generated contents, so as to generate new rankings of answers. Discovered clusters contain semantically related triplets representing question–answers pairs in terms of subject-verb-object, which is hypothesized to improve the ranking of candidate answers. Experiments were conducted using our evolutionary model and concept clustering operating on large-scale data extracted from Yahoo! Answers. Results show the promise of the approach to effectively discovering semantically similar questions and improving the ranking as compared to state-of-the-art methods.  相似文献   

12.
A Web-Based Platform for User-Interactive Question-Answering   总被引:2,自引:0,他引:2  
A user-interactive question-answering (QA) platform named BuyAns (at ) is presented. The platform is a special kind of online community and mainly features a rewarding scheme for answering questions among all users, a pattern-based user interface (UI) for questioning and answering, and a pattern-based representation and storage scheme for accumulated question-answer pairs. The system actually proposes and promotes a C2C business model for exchanging and commercializing knowledge from ordinary people. It can also be used as an incentive and collaborative approach to knowledge acquisition. Driven by the business model, prompt and quality answers are quickly accumulated. Due to the patterns used, accurate answers can be provided automatically for repeated questions. Facilitating features and technologies, including user modeling, reputation management, and answer clustering and fusion, are also developed and briefly described. Preliminary user studies show the potential attraction of the system to its users as well as reasonable usability and user-satisfaction. We anticipate hot applications of such a system in the Web 2.0 era.  相似文献   

13.
答案选择是自动问答系统中的关键任务之一,其主要目的是根据问题与候选答案的相似性对候选答案进行排序,并选择出相关性较高的答案返回给用户。可将其看作成一个文本对的匹配问题。该文利用词向量、双向LSTM、2D神经网络等深度学习模型对问题—答案对的语义匹配特征进行了提取,并将其与传统NLP特征相结合,提出一种融合深度匹配特征的答案选择模型。在Qatar Living社区问答数据集上的实验显示,融合深度匹配特征的答案选择模型比基于传统特征的模型MAP值高5%左右。  相似文献   

14.
One of the key challenges for question answering is to bridge the lexical gap between questions and answers because there may not be any matching word between them. Machine translation models have been shown to boost the performance of solving the lexical gap problem between question-answer pairs. In this paper, we introduce an attention-based deep learning model to address the answer selection task for question answering. The proposed model employs a bidirectional long short-term memory (LSTM) encoder-decoder, which has been demonstrated to be effective on machine translation tasks to bridge the lexical gap between questions and answers. Our model also uses a step attention mechanism which allows the question to focus on a certain part of the candidate answer. Finally, we evaluate our model using a benchmark dataset and the results show that our approach outperforms the existing approaches. Integrating our model significantly improves the performance of our question answering system in the TREC 2015 LiveQA task.  相似文献   

15.
崔敏君  段利国  李爱萍 《计算机科学》2016,43(1):94-97, 102
社交媒体中的问答对可以为自动问答系统提供答案,但有些答案的质量不高,因此答案质量评价方法具有研究价值。已有的评价方法没有考虑问题类别特征,对不同类型的问题采用统一的评价方法。因此提出了一个层次分类模型。首先分析问题类型;然后提取文本、非文本、语言翻译性、答案中的链接数4类特征,依据特征分类影响力随问题类型不同而不同这一客观现象,采用逻辑回归算法对各类型问题的答案质量进行评价,取得了较好的实验效果;最后分析了影响各类问题答案质量的主要特征。  相似文献   

16.
面向对话文本的自动摘要系统的研究   总被引:3,自引:0,他引:3  
该文介绍了对话文本自动摘要系统的一些关键技术,包括体裁的识别、对话信息单元的识别、问题句与回答句的关联等。摘要的连贯性是衡量摘要质量的一个重要指标,由于对话文本本身的交互性,使得摘要的连贯性常存在于不同的对话者的对话内容之中,并以问题一回答对的形式出现,该文设计了一种自动识别这些局部连贯性的方法,该方法首先自动识别出所有的问题句;然后识别出与问题句相对应的同答句,形成问题一回答对;最后根据启发式规则,从这些问题一回答对中选取句子生成摘要。实验结果表明,该方法具有较高的识别准确率,并在无损摘要信息量的基础上大大提高对话文本摘要的连贯性。  相似文献   

17.
当前特定领域的问答系统主要采用基于关键字匹配的方法完成问答,类似水库大坝的建成时间、坝高等,无法充分理解用户自然语言提问的检索意图并给出准确回答。为此基于知识图谱技术,利用语义解析方法,本文设计并开发面向水利信息资源的智能问答系统。针对语义解析自然语言问句转化为结构化查询语句需要多步操作,容易导致语义鸿沟问题,还为了后续基于知识表示的问答方法,积累用户语料,本文提出一种语料扩展方法构建语料库。  相似文献   

18.
李伟  黄贤英  冯雅茹 《计算机应用研究》2023,40(6):1674-1678+1685
无监督常识问答是利用机器自动生成问答数据来对模型进行训练的问答模型,目前方法生成的问答数据中存在噪声数据和问题的难度随机的问题。提出一种基于课程学习的无监督常识问答模型,首先根据知识生成问答数据集,再对问答数据集进行多样化评估和流畅性评估,结合两个评估结果进行数据过滤,去除噪声数据;最后根据课程学习策略,使用干扰项与正确答案的相似度作为问题难度评估标准,使得模型根据难度等级来进行训练。在测试任务上具有1.5%~3.5%的准确率提升,证明了该模型在无监督常识问答任务上的有效性。  相似文献   

19.
目的 现有大多数视觉问答模型均采用自上而下的视觉注意力机制,对图像内容无加权统一处理,无法更好地表征图像信息,且因为缺乏长期记忆模块,无法对信息进行长时间记忆存储,在推理答案过程中会造成有效信息丢失,从而预测出错误答案。为此,提出一种结合自底向上注意力机制和记忆网络的视觉问答模型,通过增强对图像内容的表示和记忆,提高视觉问答的准确率。方法 预训练一个目标检测模型提取图像中的目标和显著性区域作为图像特征,联合问题表示输入到记忆网络,记忆网络根据问题检索输入图像特征中的有用信息,并结合输入图像信息和问题表示进行多次迭代、更新,以生成最终的信息表示,最后融合记忆网络记忆的最终信息和问题表示,推测出正确答案。结果 在公开的大规模数据集VQA (visual question answering)v2.0上与现有主流算法进行比较实验和消融实验,结果表明,提出的模型在视觉问答任务中的准确率有显著提升,总体准确率为64.0%。与MCB(multimodal compact bilinear)算法相比,总体准确率提升了1.7%;与性能较好的VQA machine算法相比,总体准确率提升了1%,其中回答是/否、计数和其他类型问题的准确率分别提升了1.1%、3.4%和0.6%。整体性能优于其他对比算法,验证了提出算法的有效性。结论 本文提出的结合自底向上注意力机制和记忆网络的视觉问答模型,更符合人类的视觉注意力机制,并且在推理答案的过程中减少了信息丢失,有效提升了视觉问答的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号