首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
分析了网页内容褒贬色彩的客观性和褒贬倾向性分类的可行性,介绍了Web文本褒贬倾向性分类的原理和实现方法,并将已有的特征选择方法与褒贬特征提取技术结合起来,使用几种分类算法实现了名人网页的褒贬倾向性分类,达到了较好的分类效果。  相似文献   

2.
领域内文本褒贬倾向性分类中的特征提取技术   总被引:1,自引:0,他引:1  
本文介绍了文本褒贬倾向性分类的方法和技术,重点论述了文本的表示方法和褒贬特征抽取的方法,提出了基于MI特征提取方法的改进办法。实验结果表明,这种改进有利于褒贬特征的抽取,从而提高了分类的精度。  相似文献   

3.
在对现有分类方法和文本倾向性分类的复杂性进行分析的基础上,提出了一种基于类别空间模型的文本倾向性分类方法。该方法采用组合特征提取方法,基于词语对类别的倾向性进行分类。实验结果表明该方法有效地提高了倾向性分类的精度和速度。  相似文献   

4.
随着互联网的发展,社交网络、电子商务等已经成为人们关注的焦点,对社交网络的文本进行情感倾向性分析和挖掘变得越来越重要。该文针对网络上的中文文本,提出一种基于文本纹理特征的情感倾向性分类方法。通过测试多种文本纹理特征对文本情感倾向性的影响,成功将文本纹理特征融入情感分类中。通过计算各类特征与文本的情感倾向性的相关度,对特征进行降维。相对于基于词频的情感倾向性分类方法,查准率平均提高了10%左右。  相似文献   

5.
如何高效地文本分类是当前研究的一个热点。首先对文本分类概念及流程中的分词、特征提取和文本分类方法等相关技术及研究现状进行了介绍和阐述,然后分析了现有文本分类相关技术面临的挑战,最后对文本分类的发展趋势进行了总结。  相似文献   

6.
文本分类是将一个待分类的集合映射到预先确定好的文本信息集合中去的过程.在国外,英文分类技术研究已经很成熟,由于中文构词比英文分类复杂,分类技术和理论还需进一步研究.研究中文文本分类在信息处理和用户对信息的获取方面至关重要.文本分类的过程比较复杂,主要研究文本分类中的文本预处理、文本表示、特征提取与加权和分类算法等关键技术.  相似文献   

7.
董梅  胡学钢 《微机发展》2007,17(7):117-119
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

8.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

9.
针对网络不良文本信息的过滤问题提出了一种基于文本倾向性的不良文本识别方法.首先采用基于主题的文本分类方法,然后对不良主题的相关文本利用倾向性分析方法识别不良文本.基于文本倾向性由文本主题词的上下文词汇确定的假设,提出了一种基于主题词上下文的文本倾向性分类方法.实验结果显示该方法对已有基于主题分类方法很难区分的文本具有较好识别效果.  相似文献   

10.
中文文本分类中的特征选择研究   总被引:14,自引:0,他引:14  
有多种特征选择算法被用于文本自动分类,YimingYang教授曾针对英文文本分类中的特征选择做过深入的研究,并得出结论:IG和CHI方法效果相对较好.考虑到该结论不一定适合对中文文本的分类,对中文文本分类中的特征选择方法进行研究,采用了包含500篇新闻的中文语料库对几种特征选择算法进行测试,结果表明:在测试的特征选择算法中,χ2估计方法无需因训练集的改变而人为调节特征阀值,并且分类准确率较高.  相似文献   

11.
该文介绍了藏文文本分类技术的研究与进展。首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议。  相似文献   

12.
在文本分类时,只有少数学者利用特征词权重对文本进行向量表示,但是所使用的特征选择算法没有考虑特征词权重的正负及其范围等。因此,本文在CHI统计基础上提出一种计算特征词类相关性的新方法,并根据各类特征集中包含的特征词的数量,选用不同的文本类相关性计算方法;在判定文本类别过程中,只使用文本包含的特征词的个数及其类相关性,对含特征词少的文本也能很好判别。实验表明,该方法有效可行。  相似文献   

13.
采用向量空间模型(vector space model,VSM)表示网页文本,通过在CHI(Chi-Square)特征选择算法中引入频度、集中度、分散度、位置信息这四个特征因子,并考虑词长和位置特征因子改进TF-IDF权重计算公式,提出了PCHI-PTFIDF(promoted CHI-promoted TF-IDF)算法用于中文文本分类。改进算法能降维得到分类能力更强的特征项集、更精确地反映特征项的权重分布情况。结果显示,与使用传统CHI和传统TF-IDF的文本分类算法相比,PCHI-PTFIDF算法的宏F1值平均提高了10%。  相似文献   

14.
中文文本体裁的自动分类机制   总被引:1,自引:0,他引:1  
文本按体裁自动分类属于按文本的形式分类的范畴,所以它与按内容自动分类问题有许多的不同之处,本文提出了一种关于中文文本体裁自动分类的新机制。在体裁分类过程中首要的问题是分类特征的选取,体裁分类特征项分为两种方式加以描述,一是集合形式,如基于分类词典和语料统计的政论性词汇和情感词汇等,二是规则形式,如公文标识信息和条文句等。基于根据特征之间的关联性和差异性,采用样本分布决策的方法抽取相应的特征项。最后利用支撑向量机算法进行自动分类。该机制已经在五类体裁的语料上得到实现,并获得了较好的效果。  相似文献   

15.
张彪  刘贵全 《计算机工程》2010,36(22):184-186
提出一种在选取特征时考虑特征与特征之间联系的算法。对特征词之间的关联关系进行挖掘,找出那些对类别有重要影响的特征词组,而这些特征词组中的每个单词在传统单独打分策略的特征选择算法中很可能会因分值过低而被丢弃。在Ruters21578、20Newsgroup文本数据集上进行实验,将算法与广泛应用的特征选择算法(信息增益、CHI等)进行对比、分析。实验结果表明该方法是一种有特点、有效的特征选择方法。  相似文献   

16.
中文文本体裁分类中特征选择的研究   总被引:2,自引:2,他引:2       下载免费PDF全文
针对文本体裁自动分类在特征选择和权重计算方面的特殊性,提出文本的内容类别信息,改进传统特征选择方法CHI以及权重计算公式tf.idf,并运用支持向量机在含5类体裁的语料上进行中文文本体裁自动分类。实验结果表明,该方案是可行的。  相似文献   

17.
Internet文本信息量极速增加,在组织和处理这些文本数据时,文本分类技术显得尤为重要。利用统计学理论,特征提取和权重计算常常忽略了特征项之间的语法关系。文中提出了一种将短语切分与文本分类相结合的新方法。在经过TFIDF计算之后,在同一个短语中,特征项之间的关系被计算出来,然后调整权值向量,最后可以得到文本分类的正确率。同一般地文本分类方法相比,加入短语切分的文本分类方法的正确率平均提高了1.5%以上。  相似文献   

18.
基于SVM的中文文本自动分类研究   总被引:1,自引:0,他引:1  
详细介绍了进行文本分类的过程,并着重介绍了一种新的基于结构风险最小化理论的分类算法——支持向量机,通过实验比较支持向量机算法和传统的KNN算法应用于文本分类的效果,证实了支持向量机在处理文本分类问题上的优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号