首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 140 毫秒
1.
问答系统应该能够用准确、简洁的语言回答用户提出的问题.问题理解是问答系统的首要的分析工作,分析的结果的正确率直接影响后续处理.提出了一种基于用户问题的主题和焦点的问题理解的方法,该方法以问题的疑问词、句法分析、问题焦点、问题主题在知网中的首义原作为问题分类特征.实验结果证明,该方法对提高分类的准确率有较好的效果.  相似文献   

2.
基于汉语框架网的中文问题分类   总被引:3,自引:0,他引:3       下载免费PDF全文
问题分类是问答系统中重要的组成部分,问题分类结果的准确性直接影响到问答系统的质量。基于汉语框架网(Chinese FrameNet,CFN)提出了一种用于中文问题分类的新方法。该方法通过构建一系列汉语框架语义特征来表达每个问句的语义信息,进而使用最大熵模型进行中文问题的自动分类,与传统的问题分类技术相比,汉语框架语义信息的加入使得中文问题分类的精度得到了显著提高。实验结果进一步验证了该方法的有效性,大类和小类的分类精度分别达到了91.38%和83.20%。  相似文献   

3.
对中文问答系统中的问题理解技术进行了研究。问题理解是问答系统的基础,问题理解的核心内容是问题分类。本文对基于规则和统计方法的问题分类体系做了介绍,提出了基于事件框架的问题语义描述模型,给出了疑问意向的形式化定义。同时借助知网,对问题空间的大小进行评测。  相似文献   

4.
特征选择是影响问答系统中问题分类的重要因素。本文充分利用汉语框架网在语义表达方面的特点,提出一种面向问题分类的强类别信息词(SCIW)特征选择方法。首先选择五种汉语框架网特征作为候选特征,然后采用SCIW特征选择方法,根据每一类别的分类精度对单个特征的分类能力进行排序,并通过特征组合实验,选出具有最好分类效果的组合特征,达到特征约简的效果。  相似文献   

5.
基于增量式贝叶斯模型的中文问句分类研究   总被引:1,自引:0,他引:1  
固定训练集生成的分类器性能不理想且不能跟踪用户需求,为此,提出一种将增量式贝叶斯思想用于问句分类的方法。采用遗传算法选取最优特征子集优化分类器,从而避免训练集特征过分冗余,使分类器在学习过程中动态地扩大训练集并修改分类器参数。在对问句进行分类时,提取问句的疑问词、句法结构、疑问意向词和疑问意向词在知网的首项义原作为分类特征。为了验证增量式贝叶斯方法的有效性,从语料库中随机抽取不同规模的问句构成增量集,基于不同的增量集对同一测试集中的问句进行分类。实验结果表明,增量式贝叶斯分类器较朴素贝叶斯分类器有更高的分类精度,大类和小类的准确率分别达到90.2%和76.3%,在提高准确率的同时优化了运行效率。  相似文献   

6.
基于句法结构分析的中文问题分类   总被引:21,自引:3,他引:21  
问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的质量。本文提出了一种用于问题分类的特征提取的新方法,该方法主要使用句法分析的结果,提取问题的主干和疑问词及其附属成分作为分类的特征,此方法大幅度地减少了噪音,突出了问题分类的主要特征,利用贝叶斯分类器分类,有效地提高了问题分类的精度。实验结果证明了该方法的有效性,大类和小类的分类精度分别达到了86.62%和71.92%,取得了较好的效果。  相似文献   

7.
基于知网的词汇语义自动分类系统   总被引:3,自引:0,他引:3  
词汇语义分类是现代汉语语义研究的重要组成部分。该文介绍的基于知网的词汇语义自动分类系统提供了词汇语义分类的一个新思路。目前该系统的研制已取得实质性成果,在基于知网的语义分类体系上,开发了粗分类模块,对知网提供的6万余条汉语常用词进行语义分类,得到1420个语义等价类;并在此基础上,开发了细分类模块,针对粗分类结果中颗粒度较大的词类,将其进一步细化为适合实际需要的子类。实验结果证明该系统所作的分类在自然语言处理和语言学研究中起到了重要作用。  相似文献   

8.
问题分类中基于句法和语义信息的特征选择   总被引:1,自引:0,他引:1       下载免费PDF全文
问题分类是问答系统中一个非常重要的子模块,其关键在于问题的特征选择。考虑了问题的句法信息和语义信息,提出了一种利用问题疑问词、依存关系、主要动词、中心名词和名词的最高上位词作为特征进行分类的新方法。实验中,采用k-最邻近和朴素贝叶斯两种分类算法对该方法进行测试,结果表明了该方法具有较好的分类效果。在自定义的分类体系上,分别达到了82.2%和83.7%的分类精度,性能高于基于bag-of-words的特征选择方法。  相似文献   

9.
董才正  刘柏嵩 《计算机应用》2016,36(4):1060-1065
传统的问题分类体系大都基于事实类问题,传统的问题分类方法也比较依赖于疑问词这一分类特征,但问答社区(CQA)中非事实类问题居多,且许多问题并不包含疑问词,为此,提出一种面向问答社区的粗粒度分类体系,并在此基础上提出一种基于疑问词的层次化结构问题分类方法。该方法首先自动识别问题中的疑问词,若疑问词存在,则用支持向量机(SVM)模型进行分类;而对没有疑问词的问题,则用所构造的基于焦点词的分类器进行分类。通过在从中文问答社区知乎中所爬取的问题数据集上进行实验,与传统的基于SVM模型的分类方法相比,该方法的分类准确率提高了4.7个百分点。实验结果表明,这种根据问题是否含有疑问词而选择不同分类器的方法,减轻了分类方法对疑问词的依赖,能有效提高问答社区中问题分类的准确率。  相似文献   

10.
如何从文本中抽取出能够体现文本特点的关键特征,抓取特征到类别之间的映射是文本分类核心问题之一。传统的词袋模型的优点是将每个词视为一个特征,而缺点是计算成本会随特征数量和文本与特征之间的关系的增加而增加,并且没有考虑文本特征自身的语义关系,语义关系的优势是获取文本和特征之间的相关性。针对这个问题,提出一种增强混合特征选择方法,该方法使用混合特征选择进行降维,然后再使用词向量对低频词进行语义增强。为了验证增强的混合特征选择对文本分类的作用,构建了两个实验,使用LSTM算法进行分类模型训练与测试。对爬取的71825个新闻文本数据进行实验表明,基于语义的增强混合特征选择方法在文本分类时既提高了分类效率又能保证分类精度。  相似文献   

11.
问题分类是自动问答系统中关键技术之一,而问题中的关键词语是问题分类的重要依据。本文主要探讨问题词和中心词在问题分类中所起的作用,提出一种基于问题词和中心词的层次化结构问题分类器。分类器首先利用问题词将句子集分为三类,然后对于每个类别分别建立相应的分类器,对于what型问题,本文构造了基于关联规则的中心词分类器。本文实现的层次化结构分类器在TREC 2007 QA问题集和UIUC数据集上精度分别达到了90.6%和84.0%,充分显示了问题词和中心词在问题分类中至关重要的作用。  相似文献   

12.
问句分类在问答系统领域有着重要的研究意义和应用价值。为了提高自动问句分类识别效率,本文提出了基于藏文疑问虚词的问句分类方法。该方法首先提取问句中的藏文虚词;然后根据所得的虚词进行问句分类;其次,进一步将问句细分为问题大类和小类;最后,给问题贴上分类标签。这种方法,既缩小了检索空间又提高了答案的准确性。最后对各种藏文问句分类的准确性进行了测试。结果表明基于藏文虚词问句的分类方法具有可行性和实用性。  相似文献   

13.
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。  相似文献   

14.
基于语义扩展的短问题分类   总被引:1,自引:0,他引:1  
问题分类是问答系统任务之一。特别是语音交互方式中,用户的提问较短,具有口语化特征,利用传统文本分类方法对问题进行分类的效果不佳。为此提出一种基于语义扩展的短问题分类方法,该方法使用搜索引擎对问题进行知识扩展;然后,使用主题模型进行特征词选择;最后,利用词语相似度计算获取问题的类别。实验结果表明,所提方法在1365条真实问题集上平均F-measure值达到0.713,其值高于支持向量机(SVM)、K近邻(KNN)算法和最大熵方法。因此,该方法在问答系统中可以帮助系统提升问题分类的准确率。  相似文献   

15.
问答系统作为信息检索的一种高阶形式,能够迅速、精准地为用户提供所需的信息服务,在给定一个问题后,会相应地给出准确的答案,这使得它在自然语言处理领域成为一个越发受人关注的研究方向。问句分类作为问答系统中的问题分析和处理的首要环节,是问答系统中尤为重要的一部分,其分类精度会直接影响到问答系统的性能。近些年来,机器学习和深度学习等技术的快速发展极大地促进了问句分类的研究和发展,其在问句分类上具有较强的可行性和优越性。为此就问句分类的国内外研究现状、问句分类标准体系、问句特征抽取、传统的机器学习分类方法和近来流行的深度学习分类方法进行总结和分析,阐述了问句分类当前所面临的一些研究难点,并对未来的研究和发展方向做了初步展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号