首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
基于句法结构分析的中文问题分类   总被引:21,自引:3,他引:21  
问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的质量。本文提出了一种用于问题分类的特征提取的新方法,该方法主要使用句法分析的结果,提取问题的主干和疑问词及其附属成分作为分类的特征,此方法大幅度地减少了噪音,突出了问题分类的主要特征,利用贝叶斯分类器分类,有效地提高了问题分类的精度。实验结果证明了该方法的有效性,大类和小类的分类精度分别达到了86.62%和71.92%,取得了较好的效果。  相似文献   

2.
基于句法和语义信息的问句特征提取方法   总被引:1,自引:0,他引:1  
许莉  王大玲  夏秀峰 《计算机工程》2010,36(21):65-66,70
在分析当前中文问答系统中问句分析技术的基础上,提出一种基于句法结构和语义信息的问题特征提取方法。利用依存句法分析出问句的主干,从语义信息角度分析问句主干从而提取出问句的特征词,并用改进贝叶斯算法进行问题分类。实验证明,该特征提取方法能提高问题分类的准确性。  相似文献   

3.
分析了一种基于直线几何分割的朴素贝叶斯邮件过滤模型LGDNBF,用更为精确的代价因子描述了分类器误判的代价。定义了高风险决策区域,对高风险决策区域中的邮件引入SVM方法进行二次分类,提出了基于精确代价因子的两层邮件过滤模型。在中文邮件语料集上的实验结果证明了这一两层过滤模型的分类效果较之朴素贝叶斯邮件过滤模型有明显的改进。  相似文献   

4.
基于改进贝叶斯模型的中文邮件分类算法   总被引:4,自引:0,他引:4  
通过分析常见的贝叶斯分类方法和实现模型,提出了一种适用于中文邮件的分类算法——基于混合模型的最小风险贝叶斯方法。混合模型将二项独立模型和多项式模型相结合,提高邮件分类的查全率,同时,在此基础上应用最小风险贝叶斯方法,进一步提高准确率。实验表明,应用改进的方法可以得到更准确的邮件分类效果。  相似文献   

5.
针对基于固定阶Markov链模型的方法不能充分利用不同阶次子序列结构特征的问题,提出一种基于多阶Markov模型的符号序列贝叶斯分类新方法。首先,建立了基于多阶次Markov模型的条件概率分布模型;其次,提出一种附后缀表的n-阶子序列后缀树结构和高效的树构造算法,该算法能够在扫描一遍序列集过程中建立多阶条件概率模型;最后,提出符号序列的贝叶斯分类器,其训练算法基于最大似然法学习不同阶次模型的权重,分类算法使用各阶次的加权条件概率进行贝叶斯分类预测。在三个应用领域实际序列集上进行了系列实验,结果表明:新分类器对模型阶数变化不敏感;与使用固定阶模型的支持向量机等现有方法相比,所提方法在基因序列与语音序列上可以取得40%以上的分类精度提升,且可输出符号序列Markov模型最优阶数参考值。  相似文献   

6.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。  相似文献   

7.
可分性判据在中文网页分类中的应用   总被引:3,自引:0,他引:3  
提出了一种改进的基于统计的中文网页的分类算法。通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度函数似然比来增加特征词的可分性信息的算法。通过对计算相似度方法,贝叶斯方法及改进的贝叶斯方法的对比实验表明,改进算法可以使类与类的间隔最大化,因而具有较高的分类精确率和召回率。  相似文献   

8.
针对传统朴素贝叶斯分类模型应用过程中存在的特征项冗余问题,使用遗传禁忌算法对特征项集进行优化,并在此优化结果的基础上,提出了一种改进的朴素贝叶斯分类方法来解决用户模板中存在的单类别词汇问题。经实验证明,该方法比传统的朴素贝叶斯分类模型具有更好的鲁棒性和分类性能。  相似文献   

9.
基于改进属性加权的朴素贝叶斯分类模型   总被引:1,自引:0,他引:1       下载免费PDF全文
构造了一种新的属性间相关性度量方法,提出了改进属性加权的朴素贝叶斯分类模型。经实验证明,提出的朴素贝叶斯分类模型明显优于张舜仲等人提出的分类模型。  相似文献   

10.
本文提出了一种基于朴素贝叶斯和遗传算法的两类文本分类方法,该方法将朴素贝叶斯分类器变换为在二维空间中的一条分割线,在分割线临近的文本分类不可靠区间内,利用遗传算法搜索最优文本分割线,从而使分类器达到最佳性能.在由12600篇文本构成的中文语料数据集上的实验表明,该方法具有较高的分类性能和效率,查准率、查全率和F1值分别达到97.98%,91.05%和94.39%.  相似文献   

11.
基于汉语框架网的中文问题分类   总被引:3,自引:0,他引:3       下载免费PDF全文
问题分类是问答系统中重要的组成部分,问题分类结果的准确性直接影响到问答系统的质量。基于汉语框架网(Chinese FrameNet,CFN)提出了一种用于中文问题分类的新方法。该方法通过构建一系列汉语框架语义特征来表达每个问句的语义信息,进而使用最大熵模型进行中文问题的自动分类,与传统的问题分类技术相比,汉语框架语义信息的加入使得中文问题分类的精度得到了显著提高。实验结果进一步验证了该方法的有效性,大类和小类的分类精度分别达到了91.38%和83.20%。  相似文献   

12.
自动问答系统问句相似度计算的准确率直接影响系统返回答案的准确率,对此提出一种基于Word2vec和句法规则的问句相似度计算方法。构造Text-CNN问句分类模型将问句进行分类,再构造Word2vec词向量模型将问句中词与词的空间向量相似度转换成语义相似度,并加入句法规则的分析。随机从搜狗公开问答数据集中抽取200条数据进行测试,结果表明,该方法与TF-IDF方法相比,自动问答系统返回答案的准确率和召回率分别提高了0.259和0.154。  相似文献   

13.
针对中文医疗自动问答任务,为了捕捉问答句中重要的句法信息和语义信息,提出引入图卷积神经网络捕捉句法信息,并添加多注意力池化模块实现问答句的语序特征和句法特征联合学习的方法。在BERT模型学习问答句的高阶语义特征基础上,利用双向门控循环单元描述句子的全局语义特征,以及引入图卷积神经网络编码句子的语法结构信息,以与双向门控循环单元所获取的序列特征呈现互补关系;通过多注意力池化模块对问答对的不同语义空间上的编码向量进行两两交互,并着重突出问答对的共现特征;通过衡量问答对的匹配分数,找出最佳答案。实验结果表明,在cMedQA v1.0和cMedQA v2.0数据集上,相比于主流的深度学习方法,所提方法的ACC@1有所提高。实验证明引入图卷积神经网络和多注意力池化模块的集成算法能有效提升自动问答模型的性能。  相似文献   

14.
随着网络搜索引擎技术的飞速发展,对于问答系统的需求愈发迫切。而问答系统处理问题的第一步就需要分辨情感问题和非情感问题并对情感问题进行分类。该文首先分析了当前问答系统和问题分类领域的研究现状,总结了一些存在的问题。然后针对情感问题从三个方面进行分类。在语义层面,提取了三个关键词;在语法层面,通过规则的制定,将其分成五种疑问句类型;在领域层面,通过搜索引擎的相关网页数量来进行判断。再对综合上述三个方面所开发出的测试系统进行分析。实验结果表明:对于情感问题的分类,从三个层面进行分析比较全面。  相似文献   

15.
基于自学习规则和改进贝叶斯结合的问题分类*   总被引:8,自引:2,他引:6  
根据对中文问题的分析可知,问题中的疑问词和中心词等关键词对问题所属类型起着决定性的作用。提出利用自学习方法建立疑问词—类别和疑问词+中心词—类别两种规则,并结合改进贝叶斯模型的问题分类方法。该方法充分利用了关键词对分类的贡献。实验结果表明,该分类方法有很大的改进,准确率达到了84%。  相似文献   

16.
董才正  刘柏嵩 《计算机应用》2016,36(4):1060-1065
传统的问题分类体系大都基于事实类问题,传统的问题分类方法也比较依赖于疑问词这一分类特征,但问答社区(CQA)中非事实类问题居多,且许多问题并不包含疑问词,为此,提出一种面向问答社区的粗粒度分类体系,并在此基础上提出一种基于疑问词的层次化结构问题分类方法。该方法首先自动识别问题中的疑问词,若疑问词存在,则用支持向量机(SVM)模型进行分类;而对没有疑问词的问题,则用所构造的基于焦点词的分类器进行分类。通过在从中文问答社区知乎中所爬取的问题数据集上进行实验,与传统的基于SVM模型的分类方法相比,该方法的分类准确率提高了4.7个百分点。实验结果表明,这种根据问题是否含有疑问词而选择不同分类器的方法,减轻了分类方法对疑问词的依赖,能有效提高问答社区中问题分类的准确率。  相似文献   

17.
基于改进贝叶斯模型的问题分类   总被引:11,自引:2,他引:11  
张宇  刘挺  文勖 《中文信息学报》2005,19(2):101-106
随着计算机及互联网络技术的发展,开放域问答系统越来越受到人们的关注,因为它能够给用户提供相对简洁、准确的结果。开放域问答系统通常包括问题分类、问题扩展、搜索引擎、答案抽取和答案选择五个主要部分。问题分类在问答系统中起着很重要的作用,它的准确性直接影响到最终抽取的答案的准确性。 本文在对已有的贝叶斯分类方法进行分析的基础上,对该方法进行了改进。为了验证该方法的效果,构造了问题的训练集和测试集。从实验结果可以看出,该方法在实际应用中获得了较好的效果。  相似文献   

18.
针对短文本具有特征稀疏、不规范、主题不明确等特点,提出一种有效的基于支持向量机的短文本分类方法。由于汉语中依存语法分析准确率和时间效率不高的问题,针对客户文本咨询的特点,在对短文本分类时,本文并未对句子进行依存语法的分析,而是主要使用句法特征进行分析,找出文本的子串和子序列形成候选特征集,之后利用信息增益、互信息、卡方统计3种特征选择方法进行有效特征选择,最后采用支持向量机方法进行文本分类。将本文所提的模型应用于一组真实数据,实验结果表明,平均正确率可达到84.19%,从而验证该分类方法的鲁棒性和有效性。  相似文献   

19.
针对当前的分词工具在中文医疗领域无法有效切分出所有医学术语,且特征工程需消耗大量人力成本的问题,提出了一种基于注意力机制和字嵌入的多尺度卷积神经网络建模方法。该方法使用字嵌入结合多尺度卷积神经网络用以提取问题句子和答案句子不同尺度的上下文信息,并引入注意力机制来强调问题和答案句子之间的相互影响,该方法能有效学习问题句子和正确答案句子之间的语义关系。由于中文医疗领域问答匹配任务没有标准的评测数据集,因此使用公开可用的中文医疗问答数据集(cMedQA)进行评测,实验结果表明该方法优于词匹配、字匹配和双向长短时记忆神经网络(BiLSTM)建模方法,并且Top-1准确率为65.43%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号