共查询到20条相似文献,搜索用时 250 毫秒
1.
2.
3.
4.
基于SVM的多分类器构造算法的研究 总被引:6,自引:0,他引:6
在对传统的多类分类算法研究的基础上,针对基于二值分类器的多分类器构造算法存在的预测精度低、训练时间长的缺点,提出了一种基于SVM的组合回归机构造多类分类器的算法.该算法解决了二值分类器方法中存在的信息丢失问题,同时避免了由于参数调整而造成的计算代价过大的问题.实验结果表明:新的SVM多分类算法大大降低了计算代价,提高了运行效率和预测的精度,减少了运行时间. 相似文献
5.
在对传统的多类分类算法研究的基础上,针对基于二值分类器的多分类器构造算法存在的预测精度低、训练时间长的缺点,提出了一种基于SVM的组合回归机构造多类分类器的算法。该算法解决了二值分类器方法中存在的信息丢失问题,同时避免了由于参数调整而造成的计算代价过大的问题。实验结果表明:新的SVM多分类算法大大降低了计算代价,提高了运行效率和预测的精度,减少了运行时间。 相似文献
6.
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。 相似文献
7.
传统的SVM特别适合解决两类分类问题,而对于多类分类,则需将其转化为多个两类分类问题,相应地需要构造多个两类子分类器,这样不但使得分类器结构复杂,而且分类速度受到很大的影响。为了快速地进行多类分类,本文使用LIBSVM中的svmtrain实现对训练数据集的训练,从而获取SVM多分类模型,利用获取的模型进行测试与预测,不仅使得子分类器数目大大减少,而且使分类速度明显提高。最后从粉末冶金零件图库中选取的8张图像进行了分类实验,取得较好的分类结果。 相似文献
8.
针对传统网络流量分类方法准确率低、开销大、应用范围受限等问题,提出一种支持向量机(SVM)的半监督网络流量分类方法。该方法在SVM训练中,使用增量学习技术在初始和新增样本集中动态地确定支持向量,避免不必要的重复训练,改善因出现新样本而造成原分类器分类精度降低、分类时间长的情况;改进半监督Tri-training方法对分类器进行协同训练,同时使用大量未标记和少量已标记样本对分类器进行反复修正, 减少辅助分类器的噪声数据,克服传统协同验证对分类算法及样本类型要求苛刻的不足。实验结果表明,该方法可明显提高网络流量分类的准确率和效率。 相似文献
9.
本文提出一种基于损失最小化的SVM多类网页分类算法,该算法在多类的网页分类问题上将基于损失最小化的SVM分类算法和KNN相结合,在选择分类器顺序的问题上采用剩余样本最小错误率方法。实验表明该方法简单有效,较大地提高了SVM分类算法的准确性。 相似文献
10.
11.
基于语义扩展的短问题分类 总被引:1,自引:0,他引:1
问题分类是问答系统任务之一。特别是语音交互方式中,用户的提问较短,具有口语化特征,利用传统文本分类方法对问题进行分类的效果不佳。为此提出一种基于语义扩展的短问题分类方法,该方法使用搜索引擎对问题进行知识扩展;然后,使用主题模型进行特征词选择;最后,利用词语相似度计算获取问题的类别。实验结果表明,所提方法在1365条真实问题集上平均F-measure值达到0.713,其值高于支持向量机(SVM)、K近邻(KNN)算法和最大熵方法。因此,该方法在问答系统中可以帮助系统提升问题分类的准确率。 相似文献
12.
柔特 《计算机工程与科学》2015,37(7):1393-1398
问句分类在问答系统领域有着重要的研究意义和应用价值。为了提高自动问句分类识别效率,本文提出了基于藏文疑问虚词的问句分类方法。该方法首先提取问句中的藏文虚词;然后根据所得的虚词进行问句分类;其次,进一步将问句细分为问题大类和小类;最后,给问题贴上分类标签。这种方法,既缩小了检索空间又提高了答案的准确性。最后对各种藏文问句分类的准确性进行了测试。结果表明基于藏文虚词问句的分类方法具有可行性和实用性。 相似文献
13.
针对问句文本通常较短、语义信息与词语共现信息不足等问题,提出一种多层级注意力卷积长短时记忆模型(multi-level attention convolution LSTM neural network,MAC-LSTM)的问题分类方法。相比基于词嵌入的深度学习模型,该方法使用疑问词注意力机制对问句中的疑问词特征重点关注。同时,使用注意力机制结合卷积神经网络与长短时记忆模型各自文本建模的优势,既能够并行方式提取词汇级特征,又能够学习更高级别的长距离依赖特征。实验表明,该方法较传统的机器学习方法和普通的卷积神经网络、长短时记忆模型有明显的效果提升。 相似文献
14.
基于Chunk-CRF的情感问答研究 总被引:1,自引:0,他引:1
相对于事实性问答系统而言,观点或情感问答系统的研究除了需要考虑观点持有者及情感倾向性等与情感相关问题以外,其难点还在于答案形式更复杂更分散.从百度知道人工搜集了大量的情感问题,并根据情感问题的特征,统计并归纳了五大情感问题类型.问题分类模式与传统事实性问答系统不同,不能仅仅根据疑问词对其进行分类,还需要考虑到观点以及受众的反应.问题分类使用基于Chunk的CRF模型与规则相结合的情感问题分类方法.在答案抽取时结合组块识别的结果和情感的倾向性,并根据情感问题类型的不同采取不同的方法以获取答案.实验结果表明了评价体系的有效性. 相似文献
15.
16.
针对文本分类中传统特征选择方法卡方统计量和信息增益的不足进行了分析,得出文本分类中的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计的特征选择评估函数,并利用该特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为各类别特征词库的并集。通过基于SVM的中文文本分类实验表明,该方法与传统的卡方统计量和信息增益相比,在一定程度上提高了文本分类的效果。 相似文献
17.
18.
中文问句分类特征的研究 总被引:1,自引:0,他引:1
针对"不同的问句分类特征对问句分类的影响不相同,提取和处理这些特征的时间复杂度也不相同"的问题,提取问题疑问词、核心关键词(疑问词的一二级依存词和问句中心语)的主要义原、核心关键词的首义原、问句主谓宾的主要义原、命名实体、名词单(复)数等六种分类特征,采用支持向量机分类算法,对事实疑问句进行不同特征组合的分类对比实验,发现采用词义消岐技术提取的主要义原不仅对分类的准确率影响明显,而且大幅降低特征向量的维数,减少了处理时间。 相似文献
19.
问答系统中问题模式分类与相似度计算方法 总被引:1,自引:0,他引:1
基于FAQ库的限定域自动问答系统由于更具实用性而成为自然语言处理领域的研究热点,而问题之间的相似度计算是其中最关键的技术。现有的问句相似度计算技术在处理带有上下文情景描述的问题时效果较差。针对现有技术存在的问题,提出将用户问题分为简洁模式问题(SMQs)和情景模式问题(CMQs),并提出了基于规则的问题模式分类算法。在此基础上,进一步提出了综合考察情景相似度和问句相似度的情景模式问题(CMQs)相似度计算方法。实验结果表明,问题模式分类算法取得了90%以上的准确率和召回率,情景模式问题相似度计算方法在时间复杂度较低的情况下也取得了74.3%的正确率。 相似文献
20.
以微博为代表的社交平台是信息时代人们必不可少的交流工具.挖掘微博文本数据中的信息对自动问答、舆情分析等应用研究都具有重要意义.短文本数据的分类研究是短文本数据挖掘的基础.基于神经网络的Word2vec模型能很好的解决传统的文本分类方法无法解决的高维稀疏和语义鸿沟的问题.本文首先基于Word2vec模型得到词向量,然后将类别因素引入传统权重计算方法TF-IDF (Term Frequency-Inverse Document Frequency)设计词向量权重,进而用加权求和的方法得到短文本向量,最后用SVM分类器对短文本做分类训练并且通过微博数据实验验证了该方法的有效性. 相似文献