共查询到10条相似文献,搜索用时 15 毫秒
1.
基于相邻字对信息的中文文档分类研究 总被引:2,自引:0,他引:2
本文首次提出利用相邻字对信息进行中文文档分类,使中文文档分类摆脱了对词典和切词处理的依赖,实现中文文档分类的领域无关性和时间无关性性。分别利用Naive Bayes和kNN分类方法建立了基于相邻字对信息的中文文档分类系统。初步的测试结果表明本文文档系统具有和同类文档分类系统相当的性能。 相似文献
2.
Web文本分类及其阻塞减少策略 总被引:1,自引:0,他引:1
Web挖掘中,根据内容对Web文档进行分类是至关重要的一步.在Web文档分类中一种通常的方法是层次型分类方法,这种方法采用自顶向下的方式把文档分类到一个分类树的相应类别.然而,层次型分类方法在对文档进行分类时经常产生待分类的文档在分类树的上层分类器被错误地拒绝的现象(阻塞).针对这种现象,采用了以分类器为中心的阻塞因子去衡量阻塞的程度,并介绍了两种新的层次型分类方法,即基于降低阈值的方法和基于限制投票的方法,去改善Web文档分类中文档被错误阻塞的情况. 相似文献
3.
Naive Bayes方法在文本分类中的决策强烈依赖于主观选择的样本关于类别的分布。本文利用层次式分类的特点并引入概率条件改进Naive Bayes方法,使其在每个内部类别所属的子类局部数据中进行决策,缓解了全局数据分布对分类器的影响,部分克服了数据偏斜问题。实验表明,改进方法在层次式分类中的效果较Naive Bayes方法有显著提高 相似文献
4.
5.
Nave Bayes方法在文本分类中的决策强烈依赖于主观选择的样本关于类别的分布。本文利用层次式分类的特点并引入概率条件改进Nave Bayes方法,使其在每个内部类别所属的子类局部数据中进行决策,缓解了全局数据分布对分类器的影响,部分克服了数据偏斜问题。实验表明,改进方法在层次式分类中的效果较Nave Bayes方法有显著提高。 相似文献
6.
7.
研究目的是挖掘搜索引擎中用户兴趣偏好,实现个性化搜索引擎技术.研究方法采用识别用户输入查询串,通过查询进行挖掘用户兴趣类别,但有时用户输入查询串短,或者出现查询词歧义等.由于查询会返回一系列文档,将相关文档分类处理,能够更清晰识别用户兴趣偏好.结果显示通过文档关系矩阵,将用户查询映射到对应类别,发现用户兴趣爱好.对于兼类查询等问题可以通过扩展查询解决.结论是该模型通过查询串和相关文档之间关系,进而实现用户偏好的辨别.该技术为搜索引擎信息推荐等技术打下良好基础. 相似文献
8.
9.
文本分类是将一个待分类的集合映射到预先确定好的文本信息集合中去的过程.在国外,英文分类技术研究已经很成熟,由于中文构词比英文分类复杂,分类技术和理论还需进一步研究.研究中文文本分类在信息处理和用户对信息的获取方面至关重要.文本分类的过程比较复杂,主要研究文本分类中的文本预处理、文本表示、特征提取与加权和分类算法等关键技术. 相似文献
10.
使用最大熵模型进行中文文本分类 总被引:52,自引:1,他引:51
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Baves,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法. 相似文献