首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
近年来,基于常见问题集的问答系统被广泛的应用到各个领域,而问句相似度计算是基于常见问题集的问答系统的核心模块,因此问句相似度计算方法变得越加重要。该文对问句相似度计算方法进行了综述,分别介绍了各个方法,同时对比了各个方法,最后指出了今后本领域的研究方向。  相似文献   

2.
近年来,基于常见问题集的问答系统被广泛的应用到各个领域,而问句相似度计算是基于常见问题集的问答系统的核心模块,因此问句相似度计算方法变得越加重要。该文对问句相似度计算方法进行了综述,分别介绍了各个方法,同时对比了各个方法,最后指出了今后本领域的研究方向。  相似文献   

3.
基于问句类型的问句相似度计算   总被引:1,自引:0,他引:1  
目前,问句相似度的计算主要借鉴普通陈述句的相似度计算方法。由于普通陈述句的相似性更多反映的是语句间语义上的匹配符合程度,而衡量问句间的相似性则须同时考虑问句及其答案句之间的相似程度,为此,设计了一种新的问句相似度计算方法。该方法不仅利用问句之间的语义和语法特征考察问句之间的匹配程度,还利用问句的问题类型等信息来间接刻画答案句之间的特征形象,从而以获取问句的深层语义信息,以提高问句相似度计算的准确性。实验验证了该方法的有效性。  相似文献   

4.
基于问句相似度的中文FAQ问答系统   总被引:5,自引:0,他引:5  
常见问题(FAQ)问答系统是一种在已有的“问题—答案”对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户的问答式检索系统。其关键问题是用户提出问句与FAQ库中问句进行相似度计算,找出FAQ库中最相近的问句,并返回事先存储好的问题答案。通过对常见问句特点的研究,给出一种基于分解的向量空间模型和语义概念的问句相似度计算方法,其主要思想是对一个问句向量进行分解,提取其三个关键部分:问点、主题词和疑问词,表示成三个分向量,然后对每个分向量计算基于《HIT-IRLab同义词词林(扩展版)》的语义相似度,通过线性加权就可以得出两个问句的语义相似度。试验表明,与传统的基于向量空间模型的TF-DF问句相似度计算方法相比,可以提高问句匹配的精度。  相似文献   

5.
近年来,LDA(Latent Dirichlet()al.location)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合的短文本相似度算法。该方法融合了主题相似度因子ST(Similarity Topic)和词语共现度因子CW(Co-occurrence Words),建立了联合相似度模型以规约不同ST区间下CW对ST产生的约束或补充条件,并最终权衡了准确性更高的相似度结果。对改进后的算法进行文本聚类实验,结果表明改进后的算法在F度量值上取得了一定程度的提升。  相似文献   

6.
研究问答社区中回答质量的评价方法,针对具有多个答案的问题,提出一种基于相似度的问答社区中问答质量的评价方法。该方法利用问题与各答案之间的语义关系,通过计算每个答案和问题中语言"单位"之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,选取出最佳答案。实验结果表明,与仅基于文本特征的方法相比,该方法能够有效地提高回答质量的评估效果。  相似文献   

7.
评价中医药方剂的相似度的常用方法是基于方剂的功效和主治功能进行相似度分析,但存在相似度无法定量化的问题,并且没有考虑中医方剂组成成分的影响。提出了利用LDA主题模型发掘“方剂-证型-组成成分”的隐含关系的方法,将“方剂-组成成分”转化成“方剂-证型”和“证型-组成成分”两个概率分布,并利用KL散度距离来计算相似度。实验结果表明基于LDA主题模型的方法能够更好地计算方剂间的相似度,并且能较好地反映中医辩证论治。  相似文献   

8.
王宇  王芳 《计算机应用研究》2020,37(6):1769-1773
社区问答系统中充斥着大量的噪声,给用户检索信息造成麻烦,以往的问句检索模型大多集中在词语层面。针对以上问题构建句子层面的问句检索模型。新模型基于概念层次网络(hierarchincal network of concept,HNC)理论当中的句类知识,从句子的语用、语法和语义三个层面计算问句间相似度。通过问句分类算法确定查询问句和候选问句的问句类别,得到问句间的语用相似度,利用句类表达式的结构和语义块组成分别计算问句间的语法及语义相似度。在真实数据集上的实验表明,基于HNC句类的新模型提高了问句检索结果的准确性。  相似文献   

9.
基于LDA主题模型的文本相似度计算   总被引:1,自引:0,他引:1  
王振振  何明  杜永萍 《计算机科学》2013,40(12):229-232
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。  相似文献   

10.
一种PST_LDA中文文本相似度计算方法   总被引:3,自引:1,他引:2  
为了降低中文文本相似度计算方法的时间消耗,提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集,分别用LDA方法和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。  相似文献   

11.
社区问答系统(Community-Based Question Answering Portal,CQA)的兴起,不仅为用户提供了信息获取与知识分享的平台,同时也积累了大量的问答资源。近年来对于问答社区中的问题匹配、专家发现、用户满意度分析、答案质量评价等方面的研究也逐渐加深,特别是答案质量研究已经从通过答案质量评价改善用户体验,逐步过渡到使用答案摘要提升答案质量。该文阐述了答案摘要对于社区问答系统中问答对资源再利用的重要意义,概括了答案摘要的主要任务,分析了答案摘要和多文档自动文摘的异同点,对答案摘要国内外的研究现状进行了概述,并且总结了答案摘要中需要进一步解决的关键技术问题。  相似文献   

12.
蒋竞  苗萌  赵丽娴  张莉 《软件学报》2022,33(5):1699-1710
Stack Overflow是最受欢迎的软件问答社区之一, 用户可以在该网站发布问题并得到其他用户的回答. 为了保证问题质量, 网站需要尽快发现并删除低质量或者不符合社区主题的问题. 当前, Stack Overflow主要采用人工检查的方式发现需要被删除的问题. 然而这种方式往往不能保证问题被及时发现、删除, 而且加...  相似文献   

13.
近年来,随着互联网的普及和知识爆炸性的增长,社区问答网站积累了大量的用户和内容,同时也产生了大量的低质量文本,极大地影响了用户检索满意答案的效率,因此如何提升答案质量预测的性能十分重要。目前,社区问答答案质量预测方面的研究大都是使用点方式(pointwise)来实现分类模型,但由于问题的难度不同,对答案的要求也有所差异,使用点方式会忽略掉部分答案的特点,所以该文使用点对方式(pairwise)来预测答案质量。另外,已有的研究工作表明,社区问答中同一问题下的答案数量特征对答案质量预测没有效果,甚至有冗余作用。对于时间差也有相同的结论,即不能提升预测性能。该文提出了一种将上述两者结合在一起的新特征,实验结果表明,该特征能显著提高社区问答答案质量预测的性能。  相似文献   

14.
问答社区中回答质量的评价方法研究   总被引:3,自引:0,他引:3  
问答社区已经成为网络信息获取的一种重要渠道,但其信息质量差异较大。该文研究了问答社区中回答质量的评价方法。具体考察了百度知道的问答社区环境,并对其构建了大规模的语料数据。针对百度知道的特点,文本提出的基于时序的特征、基于问题粒度的特征和基于百度知道社区用户的特征,从更多的角度对回答质量进行评价。利用分类学习的框架,该文综合了新设计的三方面特征和经典的文本特征、链接特征,对高质量和非高质量的回答进行分类。基于大规模问答语料的实验表明,在文本特征与链接特征的基础上,基于时序与基于问题粒度的特征能够有效地提高回答质量的评估效果。另外也发现,根据该文的回答质量评价框架做出的质量评分能够有效地预测最佳答案。  相似文献   

15.
自动答疑系统的研究与实现   总被引:10,自引:1,他引:10  
随着网络技术的普及以及社会发展的需要,自动答疑系统成为研究的热点之一。文章根据教学答疑系统的特点,采用自然语言处理技术,提出了一种在限定领域中支持自然语言理解的自动答疑系统的模型,并对关键技术进行了分析和讨论。该系统能够自动理解用户输入的自然语言文本,返回一组与问题相关的答案,具有节约资源、智能性和执行效率高等特点。  相似文献   

16.
知识共享型网站为自动问答系统带来了新的研究契机。但用户提供的问题及其答案质量参差不齐,在提供有用信息的同时可能包含各种无关甚至恶意的信息。对此类信息进行判别和过滤,并选取高质量的问题与答案对,有助于在基于社区的自动问答系统中重用相关问题的答案以提高问答系统的服务质量。首先从中文社区问答网站上抓取大量问题及答案,利用社会网络的方法对提问者和回答者的互动关系及特点进行了统计与分析。然后基于给定的问答质量判定标准,对3000多个问题及其答案进行了人工标注。并通过提取文本和非文本两类特征集,利用机器学习算法设计和实现了基于特征集的问答质量分类器。试验结果表明其精度和召回率均在70%以上。最后分析了影响社区网络中问答质量的主要因素。  相似文献   

17.
答案选择是问答系统的一个关键步骤,它的任务是从候选答案集中选择出最佳答案返给用户,其主要研究内容包括答案选择的标准、方法及评价。该文首先介绍了主要的答案选择标准,分析了答案选择标准与问答系统评测之间的关系。然后将答案选择策略分为基于冗余的策略、基于相似性的策略和基于推理的策略,分别对每种策略的主要答案选择方法和特点进行了概述。随后又介绍了答案选择的评价指标及答案验证评测。最后讨论了答案选择所面临的主要问题,并对其未来的发展方向进行了展望。  相似文献   

18.
答案抽取是开放领域问答系统中的关健部分,主要由检索结果句子的重排和最终候选实体的抽取构成.通过把依存分析到引入到这两个步骤中,并结合改进的关键词密度算法,增强了对句法和语义知识的利用和系统的鲁棒性,在实验中答案抽取的效果明显提高.  相似文献   

19.
蒋竞  吕江枫  张莉 《软件学报》2020,31(4):1143-1161
软件问答社区是软件开发者通过问答方式进行技术交流的网络平台.近年来,软件问答社区积累了大量用户讨论的技术问答内容.一些研究者对Stack Overflow等英文问答社区进行主题分析研究,但是缺少对于中文软件问答社区的分析.通过对中文软件回答社区开展主题分析研究,不仅可以指导开发者更好地了解技术动向,而且可以帮助管理者改进社区、吸引更多用户参与."开源中国"是中国最大的技术社区之一.对"开源中国"开展了开发者问题主题分析研究.收集"开源中国"的92 383个开发者问题,采用隐狄利克雷分配模型的主题分析方法,分析开发者问题的主题分布、热度趋势、回答情况和关键技术热度等.发现:(1)开发者讨论的技术主题分为前端开发、后端开发、数据库、操作系统、通用技术和其他6个类别.其中,前端开发讨论占比最大.(2)后端开发下的主题中用户的关注重点从传统的项目部署、服务器配置转移到较新的分布式系统等主题.(3)数据展示主题的零回答问题比例最高,数据类型主题下的零回答问题比例最低.(4)在技术学习主题下,用户对于Java的讨论明显多于对Python的讨论.  相似文献   

20.
社区问答系统已经成为获取和分享知识的一种重要渠道,但用户提供的信息质量差异比较大。本文针对社区问答系统中具有多个答案的问题,提出了一种基于混合式的社区问答答案质量评价模型,可实现最佳答案的选取。该模型首先利用基于用户活动的UAM模型获得问题和答案的主题相似度并剔除无关回复,然后结合用户权威度及多重评价标准,对答案进行评分,获得对答案的定量评价结果。基于Stack Overflow的实验表明,该方法可有效的对答案进行质量评分,有实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号