共查询到20条相似文献,搜索用时 15 毫秒
1.
基于改进TFIDF算法的文本分类研究 总被引:1,自引:0,他引:1
由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。 相似文献
2.
3.
EM算法应用广泛于缺失数据的模型参数估计,但该算法收敛速度缓慢。本文提出了A-ECM算法,即结合Aitken加速和ECM算法的思想,并通过仿真实验分析,结果表明A-ECM算法既实现了对EM算法的分阶段加速,也达到了稳定收敛的目的。 相似文献
4.
介绍基于KNN的文本分类方法,分析KNN方法实质,基于隐含语义、特征聚合、强化文本中语义链属性因子和与检索相结合的迭代近邻法四种改进方法进行比较,给出涉及的关键技术。 相似文献
5.
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。 相似文献
6.
为了克服传统的TF-IDF(Term Frequency Inverse Document Frequency)算法分类F1值低的缺陷,利用特征词在类内和类间的分布信息,提出一种改进的TF-IDF-dist算法。实验结果表明,改进的算法在不同特征维度下F1值平均提升3.2%,结合不同特征选择算法,F1值平均提升2.75%,并且对倾斜数据集有更强的适应性,表明本文算法在文本分类中的有效性。 相似文献
7.
吴宗卓 《计算技术与自动化》2022,(2):84-86
文本分类中的一个主要问题是如何提高分类准确性。为了提高分类准确性,提出了一种基于TF-IDF的新的加权方法TF-IDF-IF。此方法引入了一个新的参数来表示类内特征,它用来计算一个类中文档中的术语频率。实验使用CHI卡方统计特征选择方法在数据集中选择1000个特征,然后使用TF-IDF、TF-IDF-CF、LTC和TFC方法在一些常用的分类器如朴素贝叶斯、贝叶斯网络、KNN、SVM中进行实验。实验结果表明,这种方法可以取得很好的效果。 相似文献
8.
随着人们对场景文本检测领域的探索,对于自然场景中较规则文本的检测结果较好,然而对于任意方向的文本和复杂背景图像文本检测结果依然不理想。基于此,提出了一种改进的深度关系推理图网络模型。模型通过不同于anchor思想的文本组件预测部分,直接预测文本行,然后利用深度关系推理网络,推理出待检测文本行。同时引入Resnet50和SENet网络,提高模型特征提取能力和模型鲁棒性。通过在CTW1500和ICDAR2015两个数据集上对改良的模型进行评价,证明了改进算法的可行性。 相似文献
9.
建立了一种基于高维聚类的探索性文本挖掘算法,利用文本挖掘的引导作用实现数据类文本中的数据挖掘。算法只需要少量迭代,就能够从非常大的文本集中产生良好的集群;映射到其他数据与将文本记录到用户组,能进一步提高算法的结果。通过对相关数据的测试以及实验结果的分析,证实了该方法的可行性与有效性。 相似文献
10.
大数据时代,数据爆炸式的增长,数据获取变得更容易的同时数据缺失现象也更加普遍.数据的缺失极大地降低了数据的实用性.数据缺失问题的处理成为大数据处理的热点研究课题.介绍了数据缺失问题的研究意义和国内外研究现状.系统地分析了造成数据缺失的原因,对数据缺失问题进行了分类.对近年来国内外缺失数据处理方法进行了综述,总结了各自优... 相似文献
11.
12.
讨论了常规关键词过滤算法的实现方法和实际应用中的缺陷,详细描述了改进的基于单链表存储结构的关键词过滤算法及动态更新关键词列表的实现过程。最后,对改进前后的关键词过滤算法进行对比。 相似文献
13.
14.
15.
互联网容纳了海量的文本信息,文本分类系统能够在给定的类别下,自动将文本分门别类,更好地帮助人们挖掘有用信息.介绍了基于词频分类器集成文本分类算法.该算法计算代价小,分类召回率高,但准确率较低,分析了导致准确率低的原因,在此基础上提出了基于改进词频分类器集成的文本分类算法,改进后的算法在文本权重更新方面做了参数调整,使得算法的准确率有显著提高,最后用实验验证了改进后算法的性能.实验结果表明,基于改进词频分类器集成的文本分类算法不仅提高了分类的准确性,而且表现出较好的稳定性. 相似文献
16.
17.
18.
KNN算法是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决相关问题,本文首先利用粗糙集对高维文本信息进行属性约简,删除冗余属性,而后用改进的基于簇的KNN算法进行文本分类。通过仿真实验,证明该方法能够提高文本的分类精度和准确率。 相似文献
19.
20.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。 相似文献