首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
为了在准确判断商品评价情感倾向的同时提高识别效率,提出了基于矩阵投影(MP)和归一化向量(NLV)的文本分类算法实现对商品评价的情感分析。首先,利用矩阵投影提取商品评价的特征词;然后,计算每一类别中特征词的平均特征频率(FF),采用归一化函数(NLF)对平均特征频率进行归一化处理,得到每一类别的归一化向量;最后,通过比较评价的特征向量与每一类别的归一化向量的相似度预测评价的情感倾向。与k近邻(kNN)、朴素贝叶斯(NB)和支持向量机(SVM)算法进行了对比,实验结果表明该算法具有较高的预测准确度和分类速度:尤其与kNN算法相比该算法有明显优势,该算法的宏平均F1值比kNN高出12%以上,分类时间缩短了11/12;与SVM算法相比分类速度也大幅提高。  相似文献   

2.
网络信息规模随着互联网与信息技术的发展而不断增大,在这些信息中,各种类型的文本信息占据了相当大的比重。因此,高效、快速地对文本信息进行分类是网络信息处理中一个关键问题。本文分析比较了SVM算法、朴素Bayes算法和KNN算法3种算法,并通过实验证明了这3种算法在中文文本分类中的效果。实验结果表明:SVM算法比KNN算法和朴素Bayes算法更优,SVM算法是一种较好的中文文本分类算法。  相似文献   

3.
文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中,文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理。提出基于最近支持向量机的样本距离公式,避免k参数的选定,以SVM与KNN分类算法的特殊组合算法(SV-NN)实现了哈萨克语文本的分类。结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验,数值实验展示了提出算法的有效性并证实了理论结果。  相似文献   

4.
将文本分类理论应用于哈萨克语中,给出基于支持向量机的哈萨克文文本分类系统的设计思想.从哈萨克语言学的角度对哈萨克文分析,提出哈萨克文词干提取的方法.在对支持向量机的理论分析基础上,提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类.实验结果表明,该方法在哈萨克文文本分类中能获得可接受的分类性能.  相似文献   

5.
翟旭  戚玲  喻松 《软件》2012,33(12)
为提高视频监控系统中视频清晰度评价的准确性和系统运行效率,提出了结合提升小波变换和支持向量机(SVM)分类算法的图像清晰度评价算法.在研究了常用的SVM多类分类算法的基础上,提出了霍夫曼树SVM多类分类算法.进行了视频监控系统的仿真实验,结果表明,与普通二叉树SVM多类分类算法的效果相比,霍夫曼树SVM多类分类算法在系统的分类正确率及运行效率方面有明显提升.  相似文献   

6.
K最近邻算法理论与应用综述   总被引:2,自引:0,他引:2  
k最近邻算法(kNN)是一个十分简单的分类算法,该算法包括两个步骤:(1)在给定的搜索训练集上按一定距离度量,寻找一个k的值。(2)在这个kNN算法当中,根据大多数分为一致的类来进行分类。kNN算法具有的非参数性质使其非常易于实现,并且它的分类误差受到贝叶斯误差的两倍的限制,因此,kNN算法仍然是模式分类的最受欢迎的选择。通过总结多篇使用了基于kNN算法的文献,详细阐述了每篇文献所使用的改进方法,并对其实验结果进行了分析;通过分析kNN算法在人脸识别、文字识别、医学图像处理等应用中取得的良好分类效果,对kNN算法的发展前景无比期待。  相似文献   

7.
针对遥感图像分类问题提出了一种基于遗传算法和K近邻的SVM决策树方法。算法以基于类分布的类间分离性测度为准则,利用遗传算法对传统的SVM决策树进行优化,生成最优(较优)决策树。在分类阶段,对容易分的节点利用SVM进行分类,而对可分离性差的节点采用SVM和K近邻相结合的分类方法,最终实现多类别分类。实验结果表明,与传统的分类方法相比,该算法的实验效果较好,可有效地提高遥感图像的分类精度。  相似文献   

8.
模糊kNN在文本分类中的应用研究   总被引:1,自引:0,他引:1  
自动文本分类是根据已经分配好类标签的训练文档集,来对新文档分配类标签.针对模糊kNN算法用于文本分类的性能进行了一系列的实验研究与分析.在中英文两个不同的语料集上,采用四种著名的文本特征选择方法进行特征选择,对改进的模糊kNN方法与经典kNN及目前广泛使用的基于相似度加权的kNN方法进行实验比较.结果表明,在不同的特征选择方法下,该算法均能削弱训练样本分布的不均匀性对分类性能的影响,提高分类精度,并且在一定程度上降低对k值的敏感性.  相似文献   

9.
针对高维不平衡数据中维数灾难和类不平衡分布问题,提出一种改进k最近邻(kNN)分类算法HWNN。将样本的k发生分布作为其在预测时对各个类的支持度,以此减少高维数据中hubs对kNN分类带来的潜在负面影响。通过类加权的方式增加少数类在所有样本k发生中的分布比例,以提升对少数类样本的预测精度。在16个不平衡UCI数据集上的实验结果表明,该算法在高维不平衡数据中的分类结果优于典型kNN方法,且在普通维度的不平衡数据中优势同样明显。  相似文献   

10.
随着信息科技的快速发展,计算机中的经典算法在葡萄酒产业中得到了广泛的研究与应用。机器学习算法的特点是运用人工智能技术,在经过大量的样本集训练和学习后可以自动地找出运算所需要的参数和模型。针对数据挖掘中常用的机器学习算法进行相关的研究。以分类算法为例进行数据挖掘技术的研究。针对SVM(支持向量机)泛化能力弱的缺点,给出了一种改进的SVM-NSVM,即先对训练集进行精选,根据每个样本与最近邻类标的异同判断样本点的取舍,然后再用SVM训练得到分类器。针对kNN(k-最近邻)训练数据集大的缺点,给出了一种改进的通过渐进的思想来寻找最近邻点。实验表明,与SVM相比,NSVM在分类正确率、分类速度上有一定的优势。改进的kNN算法的复杂度明显降低。此外,设计了葡萄酒信息数据分析系统,利用数据挖掘方法对极大量的葡萄酒信息数据进行分析、对比与匹配,从而可挖掘葡萄酒的主要成分对比信息和营销潜在信息等;再对这些成分进行相应的分析,并与高质量葡萄酒中的成分进行相应的对比,最终得出葡萄酒的相关分析信息数据,其可帮助葡萄酒生产厂商对葡萄酒的成分含量、品质进行分析。  相似文献   

11.
李静  杨小帆  孙启干 《计算机工程》2012,38(10):182-184
提出一种虚核文本分类算法。通过单类别下标记数据的特征词频计算该类别虚核在每个特征项处的特征引力场强,进而获得类别虚核,根据类别虚核对待标记文本产生的引力大小判断其所属类别。实验结果表明,与k近邻算法和朴素贝叶斯算法相比,虚核算法在分类精度和时间开销方面具有较大的优势。  相似文献   

12.
On Machine Learning Methods for Chinese Document Categorization   总被引:1,自引:0,他引:1  
This paper reports our comparative evaluation of three machine learning methods, namely k Nearest Neighbor (kNN), Support Vector Machines (SVM), and Adaptive Resonance Associative Map (ARAM) for Chinese document categorization. Based on two Chinese corpora, a series of controlled experiments evaluated their learning capabilities and efficiency in mining text classification knowledge. Benchmark experiments showed that their predictive performance were roughly comparable, especially on clean and well organized data sets. While kNN and ARAM yield better performances than SVM on small and clean data sets, SVM and ARAM significantly outperformed kNN on noisy data. Comparing efficiency, kNN was notably more costly in terms of time and memory than the other two methods. SVM is highly efficient in learning from well organized samples of moderate size, although on relatively large and noisy data the efficiency of SVM and ARAM are comparable.  相似文献   

13.
文本分类中普遍应用的TF-IDF特征权重算法没有引入特征项的纯度和类别属性.在结合基尼指数原理和TF-IDF特征权重算法基础上,提出一种基于基尼指数的特征权重改进算法,在计算特征权重时引入特征项的纯度和分类的已知类别属性.进一步,设计了两种特征权重算法的对比实验,并在SVM分类器和kNN分类器下选取不同的特征项数目进行多次实验.实验结果表明,该改进的基尼指数特征权重算法有更好的效果.  相似文献   

14.
一种改进的结合K近邻法的SVM分类算法   总被引:2,自引:1,他引:1       下载免费PDF全文
在对支持向量机在超平面附近容易对测试样本造成错分进行研究的基础上,改进了将支持向量机分类和k近邻分类相结合的方法,形成了一种新的分类器.在分类阶段计算待识别样本和最优分类超平面的距离,如果距离差大于给定阈值可直接应用支持向量机分类,否则用最佳距离k近邻分类.数值实验表明,使用支持向量机结合最近邻分类的分类器分类比单独使用支持向量机分类具有更高的分类准确率.  相似文献   

15.
支持向量机在文本分类中的应用   总被引:1,自引:0,他引:1  
文中提出了基于朴素贝叶斯的支持向量机的分类方法,首先采用文本预处理,再根据文本的特征进行特征降维,然后用基于朴素贝叶斯的算法对支持向量机进行训练后,再对新的文本进行分类。实验表明,该方法比传统的SVM算法具有较高的准确率。  相似文献   

16.
利用CHI值特征选取和前向神经网络的覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。该方法利用CHI值进行特征选取即特征降维,应用覆盖算法进行文本分类。该方法将CHI值特征选取和覆盖算法充分结合,在提高了分类速度的同时还保证了分类的准确度。应用该方法对标准数据集中的文本进行实验,并在不同的维数上与SVM算法、朴素贝叶斯方法的实验结果进行了比较。结果表明,与SVM算法和朴素贝叶斯方法相比较,覆盖算法在准确度上更好。并且,维数的选择对分类的精确度影响很大。  相似文献   

17.
The large number of new bug reports received in bug repositories of software systems makes their management a challenging task.Handling these reports manually is time consuming,and often results in delaying the resolution of important bugs.To address this issue,a recommender may be developed which automatically prioritizes the new bug reports.In this paper,we propose and evaluate a classification based approach to build such a recommender.We use the Na¨ ve Bayes and Support Vector Machine (SVM) classifiers,and present a comparison to evaluate which classifier performs better in terms of accuracy.Since a bug report contains both categorical and text features,another evaluation we perform is to determine the combination of features that better determines the priority of a bug.To evaluate the bug priority recommender,we use precision and recall measures and also propose two new measures,Nearest False Negatives (NFN) and Nearest False Positives (NFP),which provide insight into the results produced by precision and recall.Our findings are that the results of SVM are better than the Na¨ ve Bayes algorithm for text features,whereas for categorical features,Na¨ ve Bayes performance is better than SVM.The highest accuracy is achieved with SVM when categorical and text features are combined for training.  相似文献   

18.
基于LDA模型的文本分类研究   总被引:3,自引:0,他引:3       下载免费PDF全文
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号