共查询到19条相似文献,搜索用时 62 毫秒
1.
2.
一种基于粗糙集理论的文本分类方法 总被引:1,自引:0,他引:1
何峰 《自动化与信息工程》2006,27(3):1-3
在网络这个庞大的虚拟图书馆中,占信息比重最大的文本数据却缺乏结构化、组织化的规整性,大大降低了网络文本信息的利用效率,而文本的自动分类技术则能降低网络的查询时间,提高网络搜索质量。文章提出了一种基于粗糙集理论的文本分类方法。 相似文献
3.
特征加权是文本分类中的重要环节,通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法。实验结果表明,该方法比传统的特征加权方法具有更好的分类性能。 相似文献
4.
一种基于CHI值特征选取的粗糙集文本分类规则抽取方法 总被引:6,自引:1,他引:6
结合文本分类规则抽取的特点,给出了近似规则的定义。该方法首先利用CHI值进行特征选取并为下一步特征选取提供特征重要性信息,然后使用粗糙集对离散决策表继续进行特征选取,最后用粗糙集抽取出精确规则或近似规则。该方法将CHI值特征选取和粗糙集理论充分结合,避免了用粗糙集对大规模决策表进行特征约简,同时避免了决策表的离散化。该方法提高了文本规则抽取的效率,并使其更趋实用化。实验结果表明了这种方法的有效性和实用性。 相似文献
5.
6.
7.
8.
基于TFIDF文本特征加权方法的改进研究 总被引:2,自引:0,他引:2
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 相似文献
9.
随着Web信息容量迅速膨胀,对Web文本分类已经是目前研究的热点.传统的Web文本分类对网页的预处理基本上没有考虑网页中的大量噪音,因此对分类结果有一定的影响;另一方面,文本的向量空间模型维数过高,对分类效果也存在很大的影响.提出一种基于粗糙集理论的Web文本分类方法,首先对网页进行去噪,然后对向量空间模型进行属性约简,之后构造分类器,实验表明,此方法不仅降低了维数,还提高了分类结果. 相似文献
10.
11.
12.
13.
基于文本集密度的特征词选择与权重计算方法 总被引:3,自引:0,他引:3
根据汉语语言自身的特点,在基于原有的特征项提取方法基础之上,提出了基于文本集密度的特征词选择的思想,对于特征项个数和选择进行了界定,找出了不损失文本有效信息的最小特征词语集,并且利用其中的中间值作为词语权重计算的一部分,创造出更为合理的权重计算方案。最后利用一种新的衡量权重好坏的标准——元打分法,对文中所提出的方法的正确性和有效性进行了实验和证明。 相似文献
14.
特征项权重的计算方法是文本分类的一个重要问题,计算方法的选择关系到分类的效果。使用句子的重要度对特征项权重进行计算,并与其他几种传统的权重计算方法进行了比较。该方法能够有效地提高分类的准确度。 相似文献
15.
文本分类是文本信息处理领域一个非常重要的研究方向,为了节省文本分类处理中所需的存储空间和运算时间,在分类之前用高效的算法减少所需分析的数据是非常必要的。该文介绍了一种文本分类中特征降维的方法。和传统的方法不同,该文所涉及的特征是从句子中提取的不同长度的词组,然后用比数比来对其进行特征选择。实验结果表明,该文提出的方法与传统方法相比,提高了文本分类的准确率。 相似文献
16.
基于类别特征域的文本分类特征选择方法 总被引:11,自引:2,他引:11
特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。本文介绍了一种基于类别特征域的特征选择方法。该方法首先利用“组合特征抽取”[1 ]的方法去除原始特征空间中的噪音 ,从中抽取出候选特征。这里“, 组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。 相似文献
17.
18.
传统tf.idf算法中的idf函数只能从宏观上评价特征区分不同文档的能力,无法反映特征在训练集各文档以及各类别中分布比例上的差异对特征权重计算结果的影响,降低文本表示的准确性。针对以上问题,提出一种改进的特征权重计算方法tf.igt.igC。该方法从考察特征分布入手,通过引入信息论中信息增益的概念,实现对上述特征分布具体维度的综合考虑,克服传统公式存在的不足。实验结果表明,与tf.idf.ig和tf.idf.igc 2种特征权重计算方法相比,tf.igt.igC在计算特征权重时更加有效。 相似文献
19.
本文研究了文档频率DF、信息增益IG、互信息MI、x2分布(CHI)、期望交叉熵、优势率、文本证据权七种不同的特征选取方法。针对DF对高频词过于依赖,以及MI,IG和CHI对低频词过于依赖这一特点,试验了将它们组合起来形成DF—MI,DF-IG两种组合式特征选择方法,同时针对DF的特点提出了新的特征选取方法DFR,用KNN分类器试验了几种组合方法和DFIK方法,实验结果表明DFIK较DF—MI、DF—IG对分类效果有明显的提高,而组合特征选取方法较单个特征选取方法对分类器的分类效果有了很大的提高。 相似文献