首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于改进TFIDF算法的文本分类研究   总被引:1,自引:0,他引:1  
由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。  相似文献   

2.
由于数据库的频繁更新,时态数据库隐藏了大量的未知信息,因此针对实时更新的数据库应产生相应的时态关联规则.虽然关联规则算法已经被深入广泛地研究,但在文本数据中时态关联规则算法的研究还不多见.在深入了解时态关联规则算法及其在文本数据中的研究价值后,以时态文本为对象进行了时态关联规则算法的研究,建立了时态文本数据的时间表示模型,提出了文本时态关联规则算法SPFM,最后通过实验对算法进行了有效性验证,结果表明该算法是正确可行的.  相似文献   

3.
林鸿 《福建电脑》2009,25(10):88-89,118
EM算法应用广泛于缺失数据的模型参数估计,但该算法收敛速度缓慢。本文提出了A-ECM算法,即结合Aitken加速和ECM算法的思想,并通过仿真实验分析,结果表明A-ECM算法既实现了对EM算法的分阶段加速,也达到了稳定收敛的目的。  相似文献   

4.
何峰  林亚丽 《福建电脑》2005,(1):4-5,16
介绍基于KNN的文本分类方法,分析KNN方法实质,基于隐含语义、特征聚合、强化文本中语义链属性因子和与检索相结合的迭代近邻法四种改进方法进行比较,给出涉及的关键技术。  相似文献   

5.
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。  相似文献   

6.
为了克服传统的TF-IDF(Term Frequency Inverse Document Frequency)算法分类F1值低的缺陷,利用特征词在类内和类间的分布信息,提出一种改进的TF-IDF-dist算法。实验结果表明,改进的算法在不同特征维度下F1值平均提升3.2%,结合不同特征选择算法,F1值平均提升2.75%,并且对倾斜数据集有更强的适应性,表明本文算法在文本分类中的有效性。  相似文献   

7.
文本分类中的一个主要问题是如何提高分类准确性。为了提高分类准确性,提出了一种基于TF-IDF的新的加权方法TF-IDF-IF。此方法引入了一个新的参数来表示类内特征,它用来计算一个类中文档中的术语频率。实验使用CHI卡方统计特征选择方法在数据集中选择1000个特征,然后使用TF-IDF、TF-IDF-CF、LTC和TFC方法在一些常用的分类器如朴素贝叶斯、贝叶斯网络、KNN、SVM中进行实验。实验结果表明,这种方法可以取得很好的效果。  相似文献   

8.
随着人们对场景文本检测领域的探索,对于自然场景中较规则文本的检测结果较好,然而对于任意方向的文本和复杂背景图像文本检测结果依然不理想。基于此,提出了一种改进的深度关系推理图网络模型。模型通过不同于anchor思想的文本组件预测部分,直接预测文本行,然后利用深度关系推理网络,推理出待检测文本行。同时引入Resnet50和SENet网络,提高模型特征提取能力和模型鲁棒性。通过在CTW1500和ICDAR2015两个数据集上对改良的模型进行评价,证明了改进算法的可行性。  相似文献   

9.
建立了一种基于高维聚类的探索性文本挖掘算法,利用文本挖掘的引导作用实现数据类文本中的数据挖掘。算法只需要少量迭代,就能够从非常大的文本集中产生良好的集群;映射到其他数据与将文本记录到用户组,能进一步提高算法的结果。通过对相关数据的测试以及实验结果的分析,证实了该方法的可行性与有效性。  相似文献   

10.
缺失数据处理方法研究综述   总被引:1,自引:0,他引:1       下载免费PDF全文
大数据时代,数据爆炸式的增长,数据获取变得更容易的同时数据缺失现象也更加普遍.数据的缺失极大地降低了数据的实用性.数据缺失问题的处理成为大数据处理的热点研究课题.介绍了数据缺失问题的研究意义和国内外研究现状.系统地分析了造成数据缺失的原因,对数据缺失问题进行了分类.对近年来国内外缺失数据处理方法进行了综述,总结了各自优...  相似文献   

11.
蔡坤  姜保庆 《福建电脑》2009,25(4):45-46
本文首先介绍文本挖掘的定义及一般处理过程。重点探讨了文本挖掘中的关健技术文本聚类。  相似文献   

12.
何苗  全宇 《微计算机应用》2007,28(8):841-845
讨论了常规关键词过滤算法的实现方法和实际应用中的缺陷,详细描述了改进的基于单链表存储结构的关键词过滤算法及动态更新关键词列表的实现过程。最后,对改进前后的关键词过滤算法进行对比。  相似文献   

13.
文本分类特征权重改进算法   总被引:1,自引:2,他引:1       下载免费PDF全文
台德艺  王俊 《计算机工程》2010,36(9):197-199,
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。  相似文献   

14.
文本分类特征权重改进算法   总被引:4,自引:2,他引:4       下载免费PDF全文
台德艺  王俊 《计算机工程》2010,36(9):197-199
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。  相似文献   

15.
互联网容纳了海量的文本信息,文本分类系统能够在给定的类别下,自动将文本分门别类,更好地帮助人们挖掘有用信息.介绍了基于词频分类器集成文本分类算法.该算法计算代价小,分类召回率高,但准确率较低,分析了导致准确率低的原因,在此基础上提出了基于改进词频分类器集成的文本分类算法,改进后的算法在文本权重更新方面做了参数调整,使得算法的准确率有显著提高,最后用实验验证了改进后算法的性能.实验结果表明,基于改进词频分类器集成的文本分类算法不仅提高了分类的准确性,而且表现出较好的稳定性.  相似文献   

16.
随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具。本文概括性地介绍了文本岔誊箩概今争分誊过程,_昔对几种母掣文本分类算法的基本思想、适用领域、优缺点等进行了介绍。  相似文献   

17.
本文在分析文字录入考试特点和可能出现的各种错误性质的基础上,利用通信中的同步原理研究出一种针对文字录入的评卷算法。根据该算法开发出的自动批改文字考卷(磁盘)的通用评卷软件,可处理由多种字处理软件录入的各种格式的文档。  相似文献   

18.
KNN算法是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决相关问题,本文首先利用粗糙集对高维文本信息进行属性约简,删除冗余属性,而后用改进的基于簇的KNN算法进行文本分类。通过仿真实验,证明该方法能够提高文本的分类精度和准确率。  相似文献   

19.
斯琴  张力  廉德亮 《计算机应用》2009,29(9):2348-2350
基于格式的文本水印算法对格式攻击的鲁棒性比较差,而基于自然语言的文本水印算法相对难以实现,因此提出一种基于词频的文本零水印算法。对文本内容进行分词并计算每个分词的词频,根据设定的词频阈值范围依次提取分词序列作为文本特征,将文本特征、水印和密钥注册于版权保护(IPR)信息库。水印检测可实现盲检测。将该算法用于含有图像等多媒体信息的中英文文档,试验结果证明,该算法对剪切、粘贴、内容顺序颠倒等攻击有较强的鲁棒性。  相似文献   

20.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号