共查询到16条相似文献,搜索用时 187 毫秒
1.
基于知网的中文问题自动分类 总被引:15,自引:1,他引:15
问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。该方法以问题的疑问词、句法结构、疑问意向词、疑问意向词在知网中的首义原作为分类特征。实验结果表明,在知网中选取的首义原能很好的表达问题焦点词的语义信息,可作为问题分类的一个主要特征。该方法能显著地提高问题分类的精度,大类和小类的分类精度分别达到了92.18%和83.86%。 相似文献
2.
问题分类是问答系统中重要的组成部分,问题分类结果的准确性直接影响到问答系统的质量。基于汉语框架网(Chinese FrameNet,CFN)提出了一种用于中文问题分类的新方法。该方法通过构建一系列汉语框架语义特征来表达每个问句的语义信息,进而使用最大熵模型进行中文问题的自动分类,与传统的问题分类技术相比,汉语框架语义信息的加入使得中文问题分类的精度得到了显著提高。实验结果进一步验证了该方法的有效性,大类和小类的分类精度分别达到了91.38%和83.20%。 相似文献
3.
问题分类是问答系统中一个非常重要的子模块,其关键在于问题的特征选择。考虑了问题的句法信息和语义信息,提出了一种利用问题疑问词、依存关系、主要动词、中心名词和名词的最高上位词作为特征进行分类的新方法。实验中,采用k-最邻近和朴素贝叶斯两种分类算法对该方法进行测试,结果表明了该方法具有较好的分类效果。在自定义的分类体系上,分别达到了82.2%和83.7%的分类精度,性能高于基于bag-of-words的特征选择方法。 相似文献
4.
5.
问答系统能用准确、简洁的答案回答用户用自然语言提出的问题,很明显系统中问答对的规模是影响问答系统最终性能的主要因素。为了提高问答对的规模、充分利用互联网资源,本文提出了一种基于决策树和马尔科夫链的在互联网上自动抽取问答对的算法。先根据网页中的HTML标记把网页表示成一棵DOM树;然后利用树中每个节点的结构和文字信息,抽取相应的特征;最后将得到的节点特征通过由决策树和一阶马尔可夫链结合得出的分类模型进行分类。试验结果表明准确率达到了90.398%,召回率达到了86.032%。对大量网页抽取的结果表明该分类模型能够适应对各种各样的网页的抽取。 相似文献
6.
7.
针对中文问题分类方法中布尔模型提取特征信息损失较大的问题,提出了一种新的特征权重计算方法。在提取问题特征时,通过把信息熵算法和医院本体概念模型结合在一起,进行问题的特征模型计算,在此基础上使用支持向量机方法进行中文问题分类。在城域医院问答系统的中文问题集上进行实验,证明了该方法的有效性,大类准确率及小类准确率分别达到89.0%和87.1%,取得了较好的效果。 相似文献
8.
问答系统作为信息检索的一种高阶形式,能够迅速、精准地为用户提供所需的信息服务,在给定一个问题后,会相应地给出准确的答案,这使得它在自然语言处理领域成为一个越发受人关注的研究方向。问句分类作为问答系统中的问题分析和处理的首要环节,是问答系统中尤为重要的一部分,其分类精度会直接影响到问答系统的性能。近些年来,机器学习和深度学习等技术的快速发展极大地促进了问句分类的研究和发展,其在问句分类上具有较强的可行性和优越性。为此就问句分类的国内外研究现状、问句分类标准体系、问句特征抽取、传统的机器学习分类方法和近来流行的深度学习分类方法进行总结和分析,阐述了问句分类当前所面临的一些研究难点,并对未来的研究和发展方向做了初步展望。 相似文献
9.
类似"百度知道"这类社区问答服务系统的主要任务之一是对问题进行分类,以便于对用户的提问进行组织.社区问答服务的实际应用需求对问题分类算法提出了高准确性、小计算量、对噪音数据敏感度低等要求.基于Kullback-Leibler Distance的分类算法在大规模文本和高维向量分类任务中表现出较高的分类精度,本文在该分类算... 相似文献
10.
基于句法结构特征分析及分类技术的答案提取算法 总被引:1,自引:0,他引:1
由于中文自然语言处理的特点和困难以及相应的语言处理基础资源的相对缺乏,使得国外一些成熟技术和研究成果不能直接应用到中文问答系统中.为此,针对中文事实型问答系统,提出一种新的基于句法结构特征分析及分类技术的答案提取算法,该方法将答案提取问题看成是候选答案的分类问题,即将候选答案分类为正确和错误两类.首先,该方法根据与问题类型所对应的候选答案的类型信息,从文本片断中提取出候选答案及其在句子中的简单特征和句法结构特征;然后利用这些特征训练分类器;最后用训练得到的分类器判别候选答案是否为正确答案.针对中文事实性问题,该方法与目前典型的基于模式匹配的中文答案提取算法相比,准确率提升6.2%,MRR提升9.7%. 相似文献
11.
基于BERT的常见作物病害问答系统问句分类 总被引:1,自引:0,他引:1
问句分类作为问答系统的关键模块,也是制约问答系统检索效率的关键性因素。针对农业问答系统中用户问句语义信息复杂、差异大的问题,为了满足用户快速、准确地获取常见作物病害问句的分类结果的需求,构建了基于BERT的常见作物病害问答系统的问句分类模型。首先,对问句数据集进行预处理;然后,分别构建双向长短期记忆(Bi-LSTM)自注意力网络分类模型、Transformer分类模型和基于BERT的微调分类模型,并利用三种模型提取问句的信息,进行问句分类模型的训练;最后,对基于BERT的微调分类模型进行测试,同时探究数据集规模对分类结果的影响。实验结果表明,基于BERT的微调常见作物病害问句分类模型的分类准确率、精确率、召回率、精确率和召回率的加权调和平均值分别高于双向长短期记忆自注意力网络模型和Transformer分类模型2~5个百分点,在常见作物病害问句数据集(CCDQD)上能获得最高准确率92.46%,精确率92.59%,召回率91.26%,精确率和召回率的加权调和平均值91.92%。基于BERT的微调分类模型具有结构简单、训练参数少、训练速度快等特点,并能够高效地对常见作物病害问句准确分类,可以作为常见作物病害问答系统的问句分类模型。 相似文献
12.
基于语义扩展的短问题分类 总被引:1,自引:0,他引:1
问题分类是问答系统任务之一。特别是语音交互方式中,用户的提问较短,具有口语化特征,利用传统文本分类方法对问题进行分类的效果不佳。为此提出一种基于语义扩展的短问题分类方法,该方法使用搜索引擎对问题进行知识扩展;然后,使用主题模型进行特征词选择;最后,利用词语相似度计算获取问题的类别。实验结果表明,所提方法在1365条真实问题集上平均F-measure值达到0.713,其值高于支持向量机(SVM)、K近邻(KNN)算法和最大熵方法。因此,该方法在问答系统中可以帮助系统提升问题分类的准确率。 相似文献
13.
14.
15.
16.
问答系统中问题模式分类与相似度计算方法 总被引:1,自引:0,他引:1
基于FAQ库的限定域自动问答系统由于更具实用性而成为自然语言处理领域的研究热点,而问题之间的相似度计算是其中最关键的技术。现有的问句相似度计算技术在处理带有上下文情景描述的问题时效果较差。针对现有技术存在的问题,提出将用户问题分为简洁模式问题(SMQs)和情景模式问题(CMQs),并提出了基于规则的问题模式分类算法。在此基础上,进一步提出了综合考察情景相似度和问句相似度的情景模式问题(CMQs)相似度计算方法。实验结果表明,问题模式分类算法取得了90%以上的准确率和召回率,情景模式问题相似度计算方法在时间复杂度较低的情况下也取得了74.3%的正确率。 相似文献