共查询到19条相似文献,搜索用时 250 毫秒
1.
2.
3.
分析了一种基于直线几何分割的朴素贝叶斯邮件过滤模型LGDNBF,用更为精确的代价因子描述了分类器误判的代价。定义了高风险决策区域,对高风险决策区域中的邮件引入SVM方法进行二次分类,提出了基于精确代价因子的两层邮件过滤模型。在中文邮件语料集上的实验结果证明了这一两层过滤模型的分类效果较之朴素贝叶斯邮件过滤模型有明显的改进。 相似文献
4.
基于改进贝叶斯模型的中文邮件分类算法 总被引:4,自引:0,他引:4
通过分析常见的贝叶斯分类方法和实现模型,提出了一种适用于中文邮件的分类算法——基于混合模型的最小风险贝叶斯方法。混合模型将二项独立模型和多项式模型相结合,提高邮件分类的查全率,同时,在此基础上应用最小风险贝叶斯方法,进一步提高准确率。实验表明,应用改进的方法可以得到更准确的邮件分类效果。 相似文献
5.
针对基于固定阶Markov链模型的方法不能充分利用不同阶次子序列结构特征的问题,提出一种基于多阶Markov模型的符号序列贝叶斯分类新方法。首先,建立了基于多阶次Markov模型的条件概率分布模型;其次,提出一种附后缀表的n-阶子序列后缀树结构和高效的树构造算法,该算法能够在扫描一遍序列集过程中建立多阶条件概率模型;最后,提出符号序列的贝叶斯分类器,其训练算法基于最大似然法学习不同阶次模型的权重,分类算法使用各阶次的加权条件概率进行贝叶斯分类预测。在三个应用领域实际序列集上进行了系列实验,结果表明:新分类器对模型阶数变化不敏感;与使用固定阶模型的支持向量机等现有方法相比,所提方法在基因序列与语音序列上可以取得40%以上的分类精度提升,且可输出符号序列Markov模型最优阶数参考值。 相似文献
6.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。 相似文献
7.
8.
9.
构造了一种新的属性间相关性度量方法,提出了改进属性加权的朴素贝叶斯分类模型。经实验证明,提出的朴素贝叶斯分类模型明显优于张舜仲等人提出的分类模型。 相似文献
10.
11.
问题分类是问答系统中重要的组成部分,问题分类结果的准确性直接影响到问答系统的质量。基于汉语框架网(Chinese FrameNet,CFN)提出了一种用于中文问题分类的新方法。该方法通过构建一系列汉语框架语义特征来表达每个问句的语义信息,进而使用最大熵模型进行中文问题的自动分类,与传统的问题分类技术相比,汉语框架语义信息的加入使得中文问题分类的精度得到了显著提高。实验结果进一步验证了该方法的有效性,大类和小类的分类精度分别达到了91.38%和83.20%。 相似文献
12.
自动问答系统问句相似度计算的准确率直接影响系统返回答案的准确率,对此提出一种基于Word2vec和句法规则的问句相似度计算方法。构造Text-CNN问句分类模型将问句进行分类,再构造Word2vec词向量模型将问句中词与词的空间向量相似度转换成语义相似度,并加入句法规则的分析。随机从搜狗公开问答数据集中抽取200条数据进行测试,结果表明,该方法与TF-IDF方法相比,自动问答系统返回答案的准确率和召回率分别提高了0.259和0.154。 相似文献
13.
针对中文医疗自动问答任务,为了捕捉问答句中重要的句法信息和语义信息,提出引入图卷积神经网络捕捉句法信息,并添加多注意力池化模块实现问答句的语序特征和句法特征联合学习的方法。在BERT模型学习问答句的高阶语义特征基础上,利用双向门控循环单元描述句子的全局语义特征,以及引入图卷积神经网络编码句子的语法结构信息,以与双向门控循环单元所获取的序列特征呈现互补关系;通过多注意力池化模块对问答对的不同语义空间上的编码向量进行两两交互,并着重突出问答对的共现特征;通过衡量问答对的匹配分数,找出最佳答案。实验结果表明,在cMedQA v1.0和cMedQA v2.0数据集上,相比于主流的深度学习方法,所提方法的ACC@1有所提高。实验证明引入图卷积神经网络和多注意力池化模块的集成算法能有效提升自动问答模型的性能。 相似文献
14.
随着网络搜索引擎技术的飞速发展,对于问答系统的需求愈发迫切。而问答系统处理问题的第一步就需要分辨情感问题和非情感问题并对情感问题进行分类。该文首先分析了当前问答系统和问题分类领域的研究现状,总结了一些存在的问题。然后针对情感问题从三个方面进行分类。在语义层面,提取了三个关键词;在语法层面,通过规则的制定,将其分成五种疑问句类型;在领域层面,通过搜索引擎的相关网页数量来进行判断。再对综合上述三个方面所开发出的测试系统进行分析。实验结果表明:对于情感问题的分类,从三个层面进行分析比较全面。 相似文献
15.
16.
传统的问题分类体系大都基于事实类问题,传统的问题分类方法也比较依赖于疑问词这一分类特征,但问答社区(CQA)中非事实类问题居多,且许多问题并不包含疑问词,为此,提出一种面向问答社区的粗粒度分类体系,并在此基础上提出一种基于疑问词的层次化结构问题分类方法。该方法首先自动识别问题中的疑问词,若疑问词存在,则用支持向量机(SVM)模型进行分类;而对没有疑问词的问题,则用所构造的基于焦点词的分类器进行分类。通过在从中文问答社区知乎中所爬取的问题数据集上进行实验,与传统的基于SVM模型的分类方法相比,该方法的分类准确率提高了4.7个百分点。实验结果表明,这种根据问题是否含有疑问词而选择不同分类器的方法,减轻了分类方法对疑问词的依赖,能有效提高问答社区中问题分类的准确率。 相似文献
17.
18.
针对短文本具有特征稀疏、不规范、主题不明确等特点,提出一种有效的基于支持向量机的短文本分类方法。由于汉语中依存语法分析准确率和时间效率不高的问题,针对客户文本咨询的特点,在对短文本分类时,本文并未对句子进行依存语法的分析,而是主要使用句法特征进行分析,找出文本的子串和子序列形成候选特征集,之后利用信息增益、互信息、卡方统计3种特征选择方法进行有效特征选择,最后采用支持向量机方法进行文本分类。将本文所提的模型应用于一组真实数据,实验结果表明,平均正确率可达到84.19%,从而验证该分类方法的鲁棒性和有效性。 相似文献
19.
针对当前的分词工具在中文医疗领域无法有效切分出所有医学术语,且特征工程需消耗大量人力成本的问题,提出了一种基于注意力机制和字嵌入的多尺度卷积神经网络建模方法。该方法使用字嵌入结合多尺度卷积神经网络用以提取问题句子和答案句子不同尺度的上下文信息,并引入注意力机制来强调问题和答案句子之间的相互影响,该方法能有效学习问题句子和正确答案句子之间的语义关系。由于中文医疗领域问答匹配任务没有标准的评测数据集,因此使用公开可用的中文医疗问答数据集(cMedQA)进行评测,实验结果表明该方法优于词匹配、字匹配和双向长短时记忆神经网络(BiLSTM)建模方法,并且Top-1准确率为65.43%。 相似文献