首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
对文本特征表示模型和文本特征提取方法进行了探讨,分析了分类效果的影响因素,设计了一种动态调整训练集的文本分类算法,并结合支持向量机验证了该分类系统的类别特征信息和分类适应性.  相似文献   

2.
针对在大量高维样本集下KNN算法的分类计算开销大、效率低的问题,提出了一种基于TextRank和TF-IDF的文本分类算法。首先通过TextRank算法获得文本的候选关键特征,并选择权值较大的特征作为最后的文本关键分类特征,实现所有文本文档的维度缩减,最后采用基于TFIDF特征权值计算方法实现KNN分类。实验结果表明,此方法能够有效地减少文本特征,降低文本向量维度,提高分类效率和分类性能。  相似文献   

3.
为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.  相似文献   

4.
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。  相似文献   

5.
针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重;利用当前类别补集的特征表示当前类别的特征并结合特征词在文档中的权重,解决分类器容易倾向大类别而忽略小类别的问题。与传统的朴素贝叶斯及补集朴素贝叶斯算法进行对比实验,结果表明:在样本集分布不均衡时,改进算法的性能表现最优,分类准确率、召回率及G-mean性能分别可达82.92%、84.6%、88.76%。  相似文献   

6.
文本自动分类是数据挖掘和机器学习中非常重要的研究领域 .针对难以获得大量有类标签的训练集问题 ,提出了基于小规模标注语料的增量式Bayes文本分类算法 .该算法分两种情况处理 :第一种情况是新增样本有类标签 ,可直接重新计算样本属于某类别的条件概率 .第二种情况是新增样本无类标签 ,则利用现有分类器为其训练类标签 ,然后利用新样本来修正分类器 .实验结果表明 ,该算法是可行有效的 ,比Na veBayes文本分类算法有更高的精度 .增量式Bayes分类算法的提出为分类器的更新提供了一条新途径  相似文献   

7.
在文本分类过程中,经典的最近邻分类算法(KNN)面对海量数据时的执行时间较长.对经典KNN算法进行改进,通过在训练阶段构造初级分类器以减少训练阶段的计算量,并在Hadoop平台MapReduce下予以实现.实验结果表明,改进后的算法可以在保证分类精度的情况下节省运行时间.  相似文献   

8.
针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性. 针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用. 实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力.  相似文献   

9.
朴素贝叶斯分类器是一种简单高效的分类算法,但其属性独立性假设影响了分类效果。通过放松朴素贝叶斯假设可以增强朴素贝叶斯的分类效果,但是通常会导致计算代价大幅提高。针对以上问题,提出了一种基于粗糙集的特征加权朴素贝叶斯算法,加权参数直接从训练数据中学习得到,可以看作是计算某个后验概率时,某个特征对于该类别的影响程度。将该分类算法与朴素贝叶斯分类器(na ve bayesian classifier,NB)、贝叶斯网(bayes networks)和NBTree分类器进行实验比较。结果表明:在大多数数据集上,FWNB分类器在较小的计算代价下,具有较高的分类正确率。  相似文献   

10.
基于SVM的多类分类算法改进   总被引:1,自引:0,他引:1  
在各种基于支持向量机的多类分类算法中,基于二叉树的多类支持向量机分类算法训练和分类速度相对较快,且解决了不可分问题,是一种很好的方法.本文系统研究和分析了基于二叉树的多类支持向量机分类算法,并在此基础上对其作出了改进,即当测试文本集规模较大时,对其先聚类再分类.改进的目的是,使测试文本不必总是从二叉树的根结点开始进行判断,而是有指导的代入分类函数中计算.在测试文本集规模较大,分类函数个数较多时,可以很大程度上增加分类效率,并加大了文本正确分类的概率.  相似文献   

11.
基于K邻近(KNN)算法和随机森林算法,提出了一种无线网络中丢失数据的重建方法。首先将多维原始数据通过不稳定无线信道进行发送,接收端将接收到的完整原始数据集中,利用KNN算法筛选出部分和重建特征相关性较高的特征,用于构造随机森林模型。然后输入缺失的数据样本,随机森林模型自适应地对数据样本进行分类,并利用完整样本对缺失特征值进行预测,从而完成丢失数据的重建。最后通过仿真实验表明,该方案可以有效地提升数据重建的精确度,在数据丢失率达到80%的情况下,重建数据的准确率仍然优于现有的解决方案。  相似文献   

12.
目前有多种特征提取方法用于文本自动分类,其中CHI方法效果较好,研究发现CHI方法存在着词与类别的无独立性假设及计算复杂度高等缺点,提出一种改进了的CHI方法ICHI(ImprovedCHI),通过分类实验仿真数据显示,在SVM与KNN分类中这种改进后的特征提取方法ICHI特征提取效果优于传统的CHI方法,改进后的方法ICHI能提高文本分类的准确率,适合局部特征提取.  相似文献   

13.
如何对Internet上的服装网页进行自动识别是服装资源挖掘研究的重要内容.本文研究了KNN算法和Bayes算法对服装网页测试集进行自动分类的效果.实验表明KNN和Bayes的分类准确率相当;特征提取的维数可以控制在一定的范围;过高的特征数目不一定有较高的分类准确率;针对领域特点进行算法或特征提取调整才能进一步提高分类的准确率.  相似文献   

14.
在支持向量机(SVM)方法中采用模糊☆近邻方法进行样本预选取,旨在保留最优分类超平面附近的样本点,去除远处样本点,使训练样本集减小,消除冗余,从而减小所需内存.实验结果表明,该方法无论是训练速度还是分类精度都远远好于单独的SVM分类器.  相似文献   

15.
提出了基于语义连通图的场景图生成算法. 将关系检测过程分为关系建议和关系推理两步; 以目标检测算法得到的候选对象为节点集合,构建一个全连接图; 使用物体的类别信息和相对空间关系计算物体之间存在关系的概率; 通过设置阈值来删除图中的无效连接,得到稀疏的语义连通图; 使用图神经网络聚合物体节点的特征进行聚合,融合上下文信息. 根据语义连通图的连接关系,结合更新后的主语和宾语特征以及两个物体联合区域的特征,构建关系特征,预测图中的每条边对应的关系类别.  相似文献   

16.
针对电力客户投诉信息进行短文本分类,介绍了K近邻(KNN)算法和中心向量算法,并针对KNN分类算法的某些缺陷作了相关改进,主要加入了中心向量法的思想.对改良后的KNN算法、中心向量算法和传统的KNN算法进行了实验比较,结果发现,相比传统的KNN算法,改良后的新方案能更好地运用在电力客户投诉信息的分类操作上.  相似文献   

17.
尚文倩    曹原   《南京师范大学学报》2022,(2):029-34
群组推荐问题的关键在于如何对组内各成员不同的偏好进行融合来适应所有成员的需求. 基于神经协同过滤框架和注意力机制的群组推荐算法从数据中动态地学习融合策略,相较于传统基于预定义策略的方法明显提升了推荐效果,但模型训练及推理时间较长. 本文在此基础上重构了群组偏好融合模块,引入卷积神经网络来提取群组成员的特征,从而实现偏好融合:在公开数据集上的实验表明,本文算法比现有的算法具有更优的精度,训练速度提高了14倍.  相似文献   

18.
突发事件类别众多,若采用传统的平面文本分类方法对突发事件分类,模型训练所需计算量剧增,并且对测试文本分类时要和全部分类器进行比较,导致极大的时间开销。根据突发事件类别体系结构层次性特点,提出了一种基于领域特征词的突发事件层次分类方法,将领域特征词自动提取算法用于特征选择,并在每个分类平面上采用改进的基于二叉树的SVM多类分类算法构建分类器。实验证明,基于领域特征词提取算法的特征选择方法优于传统方法,采用层次分类方法对突发事件分类,降低了时间复杂度,同时改善了分类效果,有效降低了错误分类的风险。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号