首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于相邻字对信息的中文文档分类研究   总被引:2,自引:0,他引:2  
本文首次提出利用相邻字对信息进行中文文档分类,使中文文档分类摆脱了对词典和切词处理的依赖,实现中文文档分类的领域无关性和时间无关性性。分别利用Naive Bayes和kNN分类方法建立了基于相邻字对信息的中文文档分类系统。初步的测试结果表明本文文档系统具有和同类文档分类系统相当的性能。  相似文献   

2.
Web文本分类及其阻塞减少策略   总被引:1,自引:0,他引:1  
Web挖掘中,根据内容对Web文档进行分类是至关重要的一步.在Web文档分类中一种通常的方法是层次型分类方法,这种方法采用自顶向下的方式把文档分类到一个分类树的相应类别.然而,层次型分类方法在对文档进行分类时经常产生待分类的文档在分类树的上层分类器被错误地拒绝的现象(阻塞).针对这种现象,采用了以分类器为中心的阻塞因子去衡量阻塞的程度,并介绍了两种新的层次型分类方法,即基于降低阈值的方法和基于限制投票的方法,去改善Web文档分类中文档被错误阻塞的情况.  相似文献   

3.
Naive Bayes方法在文本分类中的决策强烈依赖于主观选择的样本关于类别的分布。本文利用层次式分类的特点并引入概率条件改进Naive Bayes方法,使其在每个内部类别所属的子类局部数据中进行决策,缓解了全局数据分布对分类器的影响,部分克服了数据偏斜问题。实验表明,改进方法在层次式分类中的效果较Naive Bayes方法有显著提高  相似文献   

4.
基于统计特征的数学公式抽取方法的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
田学东  张立平  杨捧 《计算机工程》2006,32(19):211-213
在分析公式特征的基础上,提出了一种将Parezen窗和Bayes分类规则相结合的公式抽取方法。对于孤立式公式采用改进后的Parzen窗方法将其从文档中抽取出来,对于内嵌公式通过Bayes分类规则将其从文本行中抽取出来。实验表明,这种抽取方法对中文文档具有较好的适应性和较高的成功率。  相似文献   

5.
Nave Bayes方法在文本分类中的决策强烈依赖于主观选择的样本关于类别的分布。本文利用层次式分类的特点并引入概率条件改进Nave Bayes方法,使其在每个内部类别所属的子类局部数据中进行决策,缓解了全局数据分布对分类器的影响,部分克服了数据偏斜问题。实验表明,改进方法在层次式分类中的效果较Nave Bayes方法有显著提高。  相似文献   

6.
梁艳红  坎启轩  苏翌 《计算机工程》2019,45(10):221-226
在对类别模糊的文本进行分类时,主题模型只考虑文档和主题级别信息,未考虑底层词语间的隐含信息,且多数主题信息复杂、中心不明确。为此,提出一种改进的文本分类方法。通过分位数选择中心明确的主题,将其映射到word2vec词向量空间内,对模糊文本进行分类操作,进而得到文本分类结果。实验结果表明,与C_LCD+KNN方法相比,该方法分类效果较好,鲁棒性较强。  相似文献   

7.
研究目的是挖掘搜索引擎中用户兴趣偏好,实现个性化搜索引擎技术.研究方法采用识别用户输入查询串,通过查询进行挖掘用户兴趣类别,但有时用户输入查询串短,或者出现查询词歧义等.由于查询会返回一系列文档,将相关文档分类处理,能够更清晰识别用户兴趣偏好.结果显示通过文档关系矩阵,将用户查询映射到对应类别,发现用户兴趣爱好.对于兼类查询等问题可以通过扩展查询解决.结论是该模型通过查询串和相关文档之间关系,进而实现用户偏好的辨别.该技术为搜索引擎信息推荐等技术打下良好基础.  相似文献   

8.
基于N-gram信息的中文文档分类研究   总被引:12,自引:3,他引:9  
传统文档分类系统都是基于文档的词属性,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N-gram信息的中文文档分类,使中文文档分类系统摆脱对词典和切词处理的依赖,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法,实现了一个基于N-gram信息的中文文档分类系统。测试结果表明该文档分类系统具有和其它同类文档分类系统相当的性能。  相似文献   

9.
文本分类是将一个待分类的集合映射到预先确定好的文本信息集合中去的过程.在国外,英文分类技术研究已经很成熟,由于中文构词比英文分类复杂,分类技术和理论还需进一步研究.研究中文文本分类在信息处理和用户对信息的获取方面至关重要.文本分类的过程比较复杂,主要研究文本分类中的文本预处理、文本表示、特征提取与加权和分类算法等关键技术.  相似文献   

10.
使用最大熵模型进行中文文本分类   总被引:52,自引:1,他引:51  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Baves,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号