共查询到10条相似文献,搜索用时 16 毫秒
1.
基于CHI值特征选取和覆盖的文本分类方法 总被引:1,自引:1,他引:0
利用CHI值特征选取和前向神经网络的覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类.该方法利用CHI值进行特征选取即特征降维,应用覆盖算法进行文本分类.该方法将CHI值特征选取和覆盖算法充分结合,在提高了分类速度的同时还保证了分类的准确度.应用该方法对标准数据集中的文本进行实验,并在不同的维数上与SVM算法、朴素贝叶斯方法的实验结果进行了比较.结果表明,与SVM算法和朴素贝叶斯方法相比较,覆盖算法在准确度上更好.并且,维数的选择对分类的精确度影响很大. 相似文献
2.
3.
分类是文本信息搜索和挖掘的核心内容,被广泛应用于搜索引擎的设计以及数据挖掘的研究中。首先对文本进行分词,对分词的结果采用x2统计量的方法提取特征,再使用前向神经网络的交叉覆盖算法作为分类器进行文本分类。实验表明,x2统计量可大规模降低特征维数,在此基础上结合交叉覆盖算法的优秀分类能力,可在特征维数较低的情况下获得一个性能较好的文本分类器。 相似文献
4.
分类是文本信息搜索和挖掘的核心内容,被广泛应用于搜索引擎的设计以及数据挖掘的研究中。首先对文本进行分词,对分词的结果采用x2统计量的方法提取特征,再使用前向神经网络的交叉覆盖算法作为分类器进行文本分类。实验表明,x2统计量可大规模降低特征维数,在此基础上结合交叉覆盖算法的优秀分类能力,可在特征维数较低的情况下获得一个性能较好的文本分类器。 相似文献
5.
覆盖算法下文本分类特征选择的研究 总被引:1,自引:1,他引:0
文本分类是信息检索和数据挖掘的基础,被广泛应用于网络数据挖掘及搜索引擎等方面.首先对文本进行分词,对分词的结果分别使用x2统计量(CHI)方法与相关系数法(CC法)进行降维,并使用维数调节的思想进行特征提取.在得到特征集后,使用覆盖算法作为文本分类器进行学习.实验结果表明,通过结合相关系数法、覆盖算法以及维数调节方法,可实现一个效果较好的文本分类器. 相似文献
6.
利用CHI值特征选取和前向神经网络的覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。该方法利用CHI值进行特征选取即特征降维,应用覆盖算法进行文本分类。该方法将CHI值特征选取和覆盖算法充分结合,在提高了分类速度的同时还保证了分类的准确度。应用该方法对标准数据集中的文本进行实验,并在不同的维数上与SVM算法、朴素贝叶斯方法的实验结果进行了比较。结果表明,与SVM算法和朴素贝叶斯方法相比较,覆盖算法在准确度上更好。并且,维数的选择对分类的精确度影响很大。 相似文献
7.
本文利用信息增益特征选取和前向神经网络的覆盖算法,对文本进行分词的预处理后,实现文本的自动分类。该方法将信息增益特征选取和覆盖算法充分结合,不但提高了分类速度,还保证了分类的准确度。应用该方法对标准数据集中的文本进行实验,并在不同的维数上与SVM算法,贝叶斯方法的实验结果进行了比较。 相似文献
8.
文本分类是信息检索和数据挖掘的基础,被广泛应用于网络数据挖掘及搜索引擎等方面。首先对文本进行分词,对分词的结果分别使用x2统计量(CHI)方法与相关系数法(CC法)进行降维,并使用维数调节的思想进行特征提取。在得到特征集后,使用覆盖算法作为文本分类器进行学习。实验结果表明,通过结合相关系数法、覆盖算法以及维数调节方法,可实现一个效果较好的文本分类器。 相似文献
9.
本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细介绍,将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文本进行分词,然后再进行文本的分类。 相似文献
10.
张严月 《电脑与微电子技术》2012,(15):13-17
针对传统金融分析报告分类效率低的问题,提出基于支持向量机的中文文本分类技术来对金融分析报告进行分类,该分类技术采用中科院提供的中文分词系统以及使用两种特征选择算法相结合进行分词和特征选择,并且提出针对TF/IDF权重计算的改进方法。该分类技术选择支持向量机作为分类算法,通过开源的支持向量机对样本进行训练和测试。实验结果表明,采用中文文本分类技术对金融分析报告按照行业进行分类能够满足金融机构的使用需求。 相似文献