首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
提出基于改进PSO优化支持向量机的文本分类方法,首先采用向量空间模型对文本特征进行提取,使用互信息对文本特征进行降维,然后提出改进PSO算法,该算法可实现对SVM参数的精确、稳定、快速优化选择,对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

2.
基于主动学习支持向量机的文本分类   总被引:2,自引:0,他引:2       下载免费PDF全文
提出基于主动学习支持向量机的文本分类方法,首先采用向量空间模型(VSM)对文本特征进行提取,使用互信息对文本特征进行降维,然后提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

3.
支持向量机的优化算法对准确检索所需信息资料很重要.传统支持向量机参数寻优方法速度慢、运算量大,具有一定的盲目性.针对准确快速检索到所需信息,为提高支持向量机算法的性能,提出了一种采用免疫算法对支持向量机参数进行优化的文本分类方法(IA-SVM).将支持向量机模型参数作为抗体的基因设计了抗体的编码方案,利用人工免疫算法对支持向量机的惩罚因子和径向基核函数进行优化搜索,使支持向量机的分类性能最优.实验结果表明,IA-SVM算法减少了对支持向量机参数选择的盲目性,在文本分类问题上明显提高了分类正确率和检索速度.  相似文献   

4.
一种改进的支持向量机的文本分类算法   总被引:5,自引:11,他引:5  
在文本分类中,应用支持向量机(SVM)算法能使分类在小样本的条件下具有良好的泛化能力.但支持向量机的参数取值决定了其学习性能和泛化能力.为提高支持向量机算法的性能,提出了一种采用免疫算法对支持向量机参数进行优化的文本分类算法(IA-SVM).算法减少了对支持向量机参数选择的盲目性,提高了SVM的预测精度.实验表明,IA-SVM算法在文本分类问题上明显提高了分类正确牢,学习速度也有提高.  相似文献   

5.
《软件》2019,(9):71-74
在文本分类领域,中文文本需要经过数据处理,将文档表达成计算机可以理解并处理的信息。本文采用TF-IDF作为文本表示方法,针对中文文章的多分类问题,对传统支持向量机进行改进,提出了一种基于特征选择的多类支持向量机分类方法。在中文文章数据集的对比实验结果表明,本文的方法在多分类性能上较优于其他模式识别方法。  相似文献   

6.
文本自动分类关键技术研究   总被引:1,自引:0,他引:1  
为了提高文本自动分类的准确率,本文在分析文本分类预处理阶段的中文分词、特征提取、向量空间模型、web结构挖掘技术等基础上,对相关技术进行了的改进,并设计基于支持向量机文本分类器(UJS-Classifier)实现了最终的文本分类.根据测试语料分别对中文分词模块和网页文本分类模块性能进行测试,实验结果表明UJS-Classifier在分词的歧义切分、网页分类的性能及准确率都有一定的提高.  相似文献   

7.
针对DataFountain平台举办竞赛所提供的剧本角色情感数据集,采用中文分词、去停用词和绘制词云图等工具对数据进行预处理,利用词频-逆向文档频率(TF-IDF)算法提取文本特征,分别建立了基于支持向量机和朴素贝叶斯算法的机器学习分类识别模型。将建立的新模型应用于剧本角色情感的识别和分析研究,结果表明,朴素贝叶斯分类模型的识别效果要优于支持向量机分类模型;并且,当拉普拉斯平滑系数α=0.2时,朴素贝叶斯算法的分类准确率接近于80%。  相似文献   

8.
为解决投诉举报文本分类困难这一问题,提出一种基于改进果蝇优化算法的文本分类方法.针对果蝇优化算法存在的搜索半径相对固定、种群多样性低等问题,对算法进行改进;采用支持向量机建立文本分类模型,利用改进后的果蝇优化算法对支持向量机的参数进行动态寻优,以此提高模型的分类精度.实验结果表明,该文本分类方法的准确率和召回率相比于文...  相似文献   

9.
中文分词是中文信息处理的基础,也是很多中文应用首先要面对的问题。目前效果最好的分词模型是词位标注法,该方法需要使用一个分类器对每个汉字的位置进行判定。基于统计学习理论的支持向量机较好地解决小样本、非线性、高维数和局部极小点等实际问题,被公认为是优秀的机器学习方法和分类算法。实现一个基于支持向量机的中文分词系统,并在实验中取得较好的结果,证明支持向量机适用于中文分词时的词位标注问题。  相似文献   

10.
中文分词是中文信息处理的基础,也是很多中文应用首先要面对的问题。目前效果最好的分词模型是词位标注法,该方法需要使用一个分类器对每个汉字的位置进行判定。基于统计学习理论的支持向量机较好地解决小样本、非线性、高维数和局部极小点等实际问题,被公认为是优秀的机器学习方法和分类算法。实现一个基于支持向量机的中文分词系统,并在实验中取得较好的结果,证明支持向量机适用于中文分词时的词位标注问题。  相似文献   

11.
中文分词的关键技术之一在于如何正确切分新词,文中提出了一种新的识别新词的方法。借助支持向量机良好的分类性,首先对借助分词词典进行分词和词性标注过的训练语料中抽取正负样本,然后结合从训练语料中计算出的各种词本身特征进行向量化,通过支持向量机的训练得到新词分类支持向量。对含有模拟新词的测试语料进行分词和词性标注,结合提出的相关约束条件和松弛变量选取候选新词,通过与词本身特征结合进行向量化后作为输入与通过训练得到的支持向量机分类器进行计算,得到的相关结果与阈值进行比较,当结果小于阈值时判定为一个新词,而计算结果大于阈值的词为非新词。通过实验结果比较选取最合适的支持向量机核函数。  相似文献   

12.
如何在中文BERT字向量基础上进一步得到高质量的领域词向量表示,用于各种以领域分词为基础的文本分析任务是一个亟待解决的问题。提出了一种基于BERT的领域词向量生成方法。建立一个BERT-CRF领域分词器,在预训练BERT字向量基础上结合领域文本进行fine-tuning和领域分词学习;通过领域分词解码结果进一步得到领域词向量表示。实验表明,该方法仅利用少量的领域文本就可以学习出符合领域任务需求的分词器模型,并能获得相比原始BERT更高质量的领域词向量。  相似文献   

13.
基于后缀树模型的文本实时分类系统的研究和实现   总被引:8,自引:1,他引:8  
本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM) ,并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算。同时,该模型能够保证训练集中文本的更改,对分类结果产生实时影响。实验结果和算法分析表明,我们系统的文本预处理的时间复杂度为O(N) ,远远优于分词系统的预处理时间复杂度。此外,由于不需要分词和特征抽取,分类过程与具体语种无关,所以是一种独立语种的分类方法。  相似文献   

14.
基于LSTM的商品评论情感分析   总被引:1,自引:0,他引:1  
随着电子商务的发展,产生了大量的商品评论文本.针对商品评论的短文本特征,基于情感词典的情感分类方法需要大量依赖于情感数据库资源,而机器学习的方法又需要进行复杂的人工设计特征和提取特征过程.本文提出采用长短期记忆网络(Long Short-Term Memory)文本分类算法进行情感倾向分析,首先利用Word2vec和分词技术将评论短文本文本处理为计算机可理解的词向量传入LSTM网络并加入Dropout算法以防止过拟合得出最终的分类模型.实验表明:在基于深度学习的商品评论情感倾向分析中,利用LSTM网络的短时记忆独特特征对商品评论的情感分类取得了很好的效果,准确率达到99%以上.  相似文献   

15.
赵彦斌  李庆华 《计算机应用》2006,26(6):1396-1397
文本相似性分析、聚类和分类多基于特征词,由于汉语词之间无分隔符,汉语分词及高维特征空间的处理等基础工作必然引起高计算费用问题。探索了一种在不使用特征词的条件下,使用汉字间的关系进行文本相似性分析的研究思路。首先定义了文本中汉字与汉字之间关系的量化方法,提出汉字关联度的概念,然后构造汉字关联度矩阵来表示汉语文本,并设计了一种基于汉字关联度矩阵的汉语文本相似性度量算法。实验结果表明,汉字关联度优于二字词词频、互信息、T检验等统计量。由于无需汉语分词,本算法适用于海量中文信息处理。  相似文献   

16.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。  相似文献   

17.
文本分类是获取文本信息的重要一步,现有的分类方法主要是基于统计理论和机器学习的,其中著名的有Bayes[1]、KNN[2]、SVM[3]、神经网络等方法。实验证明这些方法对英文分类都表现出较好的准确性和稳定性[4]。对于中文文本分类,涉及对文本进行分词的工作。但是中文分词本身又是一件困难的事情[5]。论文尝试一种基于字符串核函数的支持矢量机方法来避开分词对中文文本分类,实验表明此方法表现出较好的分类性能。  相似文献   

18.
刘春丽  李晓戈  刘睿  范贤  杜丽萍 《计算机应用》2016,36(10):2794-2798
为提高中文分词的准确率和未登录词(OOV)识别率,提出了一种基于字表示学习方法的中文分词系统。首先使用Skip-gram模型将文本中的词映射为高维向量空间中的向量;其次用K-means聚类算法将词向量聚类,并将聚类结果作为条件随机场(CRF)模型的特征进行训练;最后基于该语言模型进行分词和未登录词识别。对词向量的维数、聚类数及不同聚类算法对分词的影响进行了分析。基于第四届自然语言处理与中文计算会议(NLPCC2015)提供的微博评测语料进行测试,实验结果表明,在未利用外部知识的条件下,分词的F值和OOV识别率分别达到95.67%和94.78%,证明了将字的聚类特征加入到条件随机场模型中能有效提高中文短文本的分词性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号