首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 83 毫秒
1.
问题分类的计算模型研究   总被引:2,自引:0,他引:2  
问题分类是问答系统技术处理的基础与核心,它决定答案抽取的范围和方法,进而影响整个系统的性能。本文提出了一个基于贝叶斯理论的问题分类计算模型,并给出其详细算法。研究分析了问句内部结构与问题类型之间的关系,将基于疑问词的2-gram组合和问句特征项同义近义扩展应用到具体计算中。实验表明,效果较为理想。  相似文献   

2.
嵇宇  王荣波  谌志群 《计算机应用》2012,32(6):1685-1687
针对受限域的特殊性,提出了一种基于句法分析和二次贝叶斯模型的问题分类的新方法。该方法首先利用浅层句法分析的结果,抽取问题的主干部分和疑问词及其附属成分作为分类的特征,大大减少了噪声;然后,提出一种适用于受限域问题分类的改进的二次贝叶斯分类模型,并利用这一模型进行了大量的实验。实验结果表明了这一方法在受限域内的有效性,大类与小类问题的平均分类精度分别达到了89.66%和84.13%。  相似文献   

3.
基于自学习规则和改进贝叶斯结合的问题分类*   总被引:8,自引:2,他引:6  
根据对中文问题的分析可知,问题中的疑问词和中心词等关键词对问题所属类型起着决定性的作用。提出利用自学习方法建立疑问词—类别和疑问词+中心词—类别两种规则,并结合改进贝叶斯模型的问题分类方法。该方法充分利用了关键词对分类的贡献。实验结果表明,该分类方法有很大的改进,准确率达到了84%。  相似文献   

4.
基于句法结构分析的中文问题分类   总被引:21,自引:3,他引:21  
问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的质量。本文提出了一种用于问题分类的特征提取的新方法,该方法主要使用句法分析的结果,提取问题的主干和疑问词及其附属成分作为分类的特征,此方法大幅度地减少了噪音,突出了问题分类的主要特征,利用贝叶斯分类器分类,有效地提高了问题分类的精度。实验结果证明了该方法的有效性,大类和小类的分类精度分别达到了86.62%和71.92%,取得了较好的效果。  相似文献   

5.
6.
基于知网的中文问题自动分类   总被引:15,自引:1,他引:15  
问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。该方法以问题的疑问词、句法结构、疑问意向词、疑问意向词在知网中的首义原作为分类特征。实验结果表明,在知网中选取的首义原能很好的表达问题焦点词的语义信息,可作为问题分类的一个主要特征。该方法能显著地提高问题分类的精度,大类和小类的分类精度分别达到了92.18%和83.86%。  相似文献   

7.
基于增量式贝叶斯模型的中文问句分类研究   总被引:1,自引:0,他引:1  
固定训练集生成的分类器性能不理想且不能跟踪用户需求,为此,提出一种将增量式贝叶斯思想用于问句分类的方法。采用遗传算法选取最优特征子集优化分类器,从而避免训练集特征过分冗余,使分类器在学习过程中动态地扩大训练集并修改分类器参数。在对问句进行分类时,提取问句的疑问词、句法结构、疑问意向词和疑问意向词在知网的首项义原作为分类特征。为了验证增量式贝叶斯方法的有效性,从语料库中随机抽取不同规模的问句构成增量集,基于不同的增量集对同一测试集中的问句进行分类。实验结果表明,增量式贝叶斯分类器较朴素贝叶斯分类器有更高的分类精度,大类和小类的准确率分别达到90.2%和76.3%,在提高准确率的同时优化了运行效率。  相似文献   

8.
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。  相似文献   

9.
10.
基于改进属性加权的朴素贝叶斯分类模型   总被引:1,自引:0,他引:1       下载免费PDF全文
构造了一种新的属性间相关性度量方法,提出了改进属性加权的朴素贝叶斯分类模型。经实验证明,提出的朴素贝叶斯分类模型明显优于张舜仲等人提出的分类模型。  相似文献   

11.
问题分类是自动问答系统中关键技术之一,而问题中的关键词语是问题分类的重要依据。本文主要探讨问题词和中心词在问题分类中所起的作用,提出一种基于问题词和中心词的层次化结构问题分类器。分类器首先利用问题词将句子集分为三类,然后对于每个类别分别建立相应的分类器,对于what型问题,本文构造了基于关联规则的中心词分类器。本文实现的层次化结构分类器在TREC 2007 QA问题集和UIUC数据集上精度分别达到了90.6%和84.0%,充分显示了问题词和中心词在问题分类中至关重要的作用。  相似文献   

12.
基于错误驱动算法组合分类器及其在问题分类中的应用   总被引:3,自引:0,他引:3  
开放领域问答系统(QA)能够给用户提供相对简洁、准确的结果,越来越受到人们的关注.问题分类把问题分成若干语义类型,是QA系统的一个重要的模块,它的准确性直接影响到QA系统的性能.为提高分类器性能,在问题分类任务中使用了集成学习方法,并且实验比较了词汇、句法、同义词集等不同的分类特征及错误驱动、投票法、BP神经网络等分类器集成方法,通过采用基于错误驱动集成分类器,用规则方法TBL作为统计方法SVM的补充;利用来自Wordnet的同义词集和名词的上位概念及Minipar的依存关系等语言知识作为分类特征,在公开测试集中取得了更高的分类精度.  相似文献   

13.
交互式问答是具备处理系列相关问题以及与用户进行对话式交互的问答技术,是近年来国际上问答技术研究的一个热门方向,但是目前在中文问答领域几乎没有开展相关的研究。实现交互式问答系统首先要判别用户系列问题之间的相关性。该文探讨了提取问题中不同特征对中文交互式问答问题相关检测的作用,并且根据识别出的有效特征采用基于二元分类方法分别对翻译成中文的TREC QA问题集语料和真实的交互式问答语料进行问题相关检测实验,实验结果显示该文的方法获得了较好的问题相关检测效果。  相似文献   

14.
基于汉语框架网的旅游信息问答系统设计   总被引:3,自引:0,他引:3  
该文借助汉语框架网(Chinese FrameNet,简称CFN)在语义表达方面的独特优势,探讨用本体描述语言建立面向特定领域的汉语框架语义知识库,并且以旅游交通领域中问答系统设计为例分析方法的有效性。方法中首先利用TREC分类与本体分类相结合的方式为查询问句分类,然后提出基于CFN的问句分析策略,通过CFN语义分析得到问句中三元组语义谓词、语义主体和语义客体,在问句分析的基础上从旅游本体知识库中对答案进行抽取并对答案处理,同时用本体编辑工具Protégé编码,实验证实方法是有效的。  相似文献   

15.
文章针对列表类自动问题回答的任务要求,提出了一种基于短语检索和答案距离排序模型的列表类问题回答的方法。该短语检索模型在传统的TF/IDF检索模型上进行改进,提出了利用不同长度短语作为查询词的检索方法,能够返回更多包含正确答案的相关文档;答案的距离排序模型则利用答案与上下文词之间的距离作为排序的依据对答案列表进行排序,可以提高正确答案的排名。这两种模型地提出在一定程度上解决了如何在返回尽可能多的答案的同时保证答案质量的问题。实验结果表明利用这两种模型的列表类问题回答方法对系统的性能有显著提高。  相似文献   

16.
问题理解是问答系统中的重要组成部分,尤其对于协作式问答。在协作式问答中用户对所提出的问题进行了详细的说明和描述。如何利用这些描述信息来提高系统的性能,是一个很重要的问题。该文提出了一种基于词典和句法分析的方法,来对用户的问题进行分析,从中提取出有价值的关键词,以提高包含候选答案网页的召回率。通过实验对比分析,该方法的MPP值和MAP值都有了较大的提高。  相似文献   

17.
基于最大熵模型的中文阅读理解问题回答技术研究   总被引:2,自引:1,他引:1  
该文基于山西大学自主开发的中文阅读理解语料库CRCC v1.1版,根据问句和候选答案句的对应关系,构建了词层面以及句法层面共计35个特征,基于最大熵模型对中文阅读理解问题回答进行了建模,在35个特征全部加入最大熵模型的情况下,测试集上得到了75.46%的HumSent准确率。考虑到特征取值之间的相关性对权重估计的影响,笔者先对35个特征观测值矩阵进行主成分降维,选择适当的主成分个数重构特征,然后再使用最大熵模型进行建模,在测试集上的HumSent准确率达到80.18%. 实验结果表明,在阅读理解问答系统中,采用特征的主成分降维方法,能有效融合全部特征信息,回避了最大熵模型中特征筛选的过程,并且提高了阅读理解系统的准确率。  相似文献   

18.
基于监督学习的中文情感分类技术比较研究   总被引:6,自引:0,他引:6  
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Nave Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明: 采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号