共查询到17条相似文献,搜索用时 343 毫秒
1.
吕佳 《计算机工程与设计》2007,28(24):6039-6041
特征提取算法TFIDF是文本分类中常用的衡量特征权重的算法,但该算法没有考虑特征词在类间和类内的分布情况,导致算法无法反映特征词在分布比例中量上的差异.为此,引入方差来描述特征词在类间和类内的分布情况,并利用方差来修正TFIDF权重.仿真实验结果表明,同传统TFIDF算法相比,改进TFIDF算法能得到更好的分类结果. 相似文献
2.
基于改进TFIDF算法的文本分类研究 总被引:1,自引:0,他引:1
由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。 相似文献
3.
文本的形式化表示一直是信息检索领域关注的基础性问题。向量空间模型(Vector Space Model)中的tf.idf文本表示是该领域里得到广泛应用,并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一。但是其IDF的计算,并没有考虑到特征项在类间的分布情况,也没有考虑到在类内分布相对均匀的特征项的权重应该比分布不均匀的要高,应该赋予其较高的权重。用改进的TFIDF选择特征词条、用KNN分类算法和遗传算法训练分类器来验证其有效性,实验表明改进的策略是可行的。 相似文献
4.
5.
文本分类中基于类别概念的特征选择方法① 总被引:1,自引:0,他引:1
传统的TFIDF公式常被用于信息检索各种计算特征项权重的场合,但在文本分类任务下,TFIDF忽略了特征项的类别信息,且较易产生一些不合理的低频高权特征,一定程度上影响了最终分类的准确性。本文提出一种基于类别概念的TFCW特征选择方法,该方法避免了TFIDF的上述缺陷。实验表明该方法用于文本分类中优于目前常见的TFIDF改进算法。 相似文献
6.
《计算机应用与软件》2016,(11)
针对KNN分类算法在面对海量Web文本处理情况时在单机上训练和测试效率低下的问题,提出基于Hadoop分布式平台以及Spark并行计算模型的无中间结果输出的改进型Web文本分类系统。同时为了充分利用Spark的迭代计算能力,在文本向量化阶段,在传统TFIDF文本特征加权算法的基础上充分考虑特征项在类内和类间的信息分布,提出一种改进的特征加权算法。实验结果表明,该文本分类系统结合Spark计算模型在提高文本预处理、文本向量化以及KNN文本分类算法的性能上有着优异的表现。 相似文献
7.
分析几种常见的特征选择评价函数,将权值计算函数应用于特征选择,提出一种新的基于改进TFIDF的文本特征选择评价函数,即TFIDF-Dac.它从提高特征项的类区分能力角度考虑,将特征项在类问的分布信息引入公式,弥补了传统的TFIDF的不足.实验测试表明,使用改进的特征选择方法能够有效提高文本分类的准确度. 相似文献
8.
9.
10.
一种可靠信任推荐文本分类特征权重算法* 总被引:4,自引:2,他引:2
从可信计算角度,提出一种可靠信任推荐文本分类特征权重算法,分析了特征在文档中的特性,基于Beta分布函数研究了特征与文档类之间的信任关系,建立特征权重计算模型,并实现简单高效的线性文本分类器。在比较实验中采用20newsgroup和复旦中文语料集。与TFIDF算法进行性能比较,实验结果显示该算法性能较TFIDF显著提高,并对非平衡语料具有良好的适应性。 相似文献
11.
特征的选择对文本分类的精确性有着非常重要的影响。针对传统的TFIDF没有考虑特征词条在各个类之间的分布的不足,对TFIDF特征选择算法进行了深入的分析,并结合信息熵的概念提出了一种新的TFIDF特征选择算法。实验结果表明,改进后的算法可以有效地提高文本分类的精确度。 相似文献
12.
基于TFIDF的特征选择方法 总被引:2,自引:2,他引:0
在文本分类系统中,特征选择方法是一种有效的降维方法.在分析了几种常用的特征选择评价函数之后,将权值计算函数应用于特征选择,并基于改进的TFIDF方法提出了一种新的评价函数,它将类别信息引入到特征项中,提取出与类别相关的特征项,弥补了TFIDF的缺陷.实验证明该方法简单可行,有助于提高所选特征子集的有效性. 相似文献
13.
短文本由于其稀疏性、实时性、非标准性等特点,在文本特征选择和文本表示方面存在较多问题,从而影响文本分类精度。针对文本特征选择方面存在较高的特征维数灾难的问题,提出一种二阶段的文本特征选择算法。首先在互信息算法的基础上,引入平衡因子、频度、集中度、词性及词在文本中的位置等5个指标对互信息值进行计算,然后将排序结果靠前的特征集初始化进行遗传算法的训练从而得到最优特征集合。因为TFIDF在计算时针对的是整篇语料而没有考虑类间分布不均的情况,在计算IDF公式时引入方差,并将改进后的TFIDF公式对Word2Vec词向量进行加权表示文本。将改进算法应用在人工构建的百科用途短文本语料集中进行实验,实验结果表明改进的文本特征选择算法和文本表示算法对分类效果有2%~5%的提升。 相似文献
14.
基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。 相似文献
15.
16.
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进的无词典分词方法进行二次分词,结合TFIDF,开方检验,信息增益及词汇位置权重方法进行特征项抽取。实验结果表明,该方法能实现特征项自动化抽取,且准确性较高 相似文献
17.
郭红钰 《计算机工程与应用》2013,49(10):140-146
文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF(Term Frequency and Inverted Document Frequency)中存在的不足,提出了一种基于信息熵理论的特征权重算法ETFIDF(Entropy based TFIDF)。ETFIDF不仅考虑特征项在文档中出现的频率及该特征项在训练集中的集中度,而且还考虑该特征项在各个类别中的分散度。实验结果表明,采用ETFIDF计算特征权重可以有效地提高文本分类性能,对ETFIDF与特征选择的关系进行了较详细的理论分析和实验研究。实验结果表明,在文本表示阶段考虑特征与类别的关系可以更为准确地表示文本;如果综合考虑精度与效率两个方面因素,ETFIDF算法与特征选择算法一起采用能够得到更好的分类效果。 相似文献