首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
针对传统向量空间模型中的特征项孤立处理问题,首先通过χ2统计和特征聚类相结合的模式实现特征降维,然后使用图模型来建立词和词之间相互关联信息,最后运用KNN方法进行文档分类测试。该算法提高了稀有词对分类的贡献,强化了关联词的分类效果,并降低了文档向量的维数。实验证明,该算法提高了分类的准确率和召回率。  相似文献   

2.
一个基于向量空间模型的中文文本自动分类系统   总被引:33,自引:2,他引:33  
介绍了一个基于向量空间模型的中文文本自动分类系统,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。实践表明:该系统对文本分类具有较高的平均查全率和平均精度。  相似文献   

3.
马忠宝  刘冠蓉 《微机发展》2006,16(11):70-72
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。  相似文献   

4.
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。  相似文献   

5.
基于文本分类的文档相似度计算   总被引:1,自引:0,他引:1  
如何从成千上万篇文档中找出与指定文档相似的所有文档,首先要做的第一件事就是判断其类别,也就是分类;在判定类别后,再进一步计算,找出同类中所有与指定文档内容相似的文档。由于文档相似度的计算和文本分类过程很相似,所以可以借助指定文档的分类结果,即类别和文档特征向量值,通过进一步计算与同类中其他文档的相似度值,找出超过阂值的文档,即找出与指定目标内容相似的文档。  相似文献   

6.
在文本分类研究中,向量空间模型具有表示形式简单的特点,但只能表示特征词的词频信息而忽视了特征词间的结构信息和语义语序信息,所以可能导致不同文档被表示为相同向量。针对这种问题,本文采用图结构模型表示文本,把文本表示成一个有向图(简称文本图),可有效解决结构化信息缺失的问题。本文将图核技术应用于文本分类,提出适用于文本图之间的相似度计算的图核算法--间隔通路核,然后利用支持向量机对文本进行分类。在文本集上的实验结果表明:与向量空间模型相比,间隔通路核相比于其他核函数的分类准确率更高,所以间隔通路核是一种很好的图结构相似性计算算法,能广泛应用于文本分类中。  相似文献   

7.
基于正交分解的文本分类模型   总被引:2,自引:0,他引:2       下载免费PDF全文
针对文本分类领域中向量空间模型维数过高和空间扭曲的问题,提出一种基于正交分解的新模型。借用物理学中力的正交分解,将高维的文本向量映射到低维的以类别为坐标轴的空间中,解决了高维的向量和扭曲的空间这2个问题。实验表明,与向量空间模型相比,新模型下分类速度有较大提高,精度也有所增加。  相似文献   

8.
基于类别空间模型的文本分类系统的设计与实现   总被引:8,自引:1,他引:8  
从理论和应用的角度对文本信息的分类方法进行研究,提出类别空间模型的概念,用于描述词语和类别之间的关系,并实现了基于类别空间模型的文本分类系统。通过实验表明,该系统有效地提高了文本分类的正确率。  相似文献   

9.
基于类别特征向量表示的中文文本分类算法   总被引:1,自引:0,他引:1  
采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bi-gram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示的中文文本分类算法.通过实验结果及理论分析,验证了该算法的有效性.  相似文献   

10.
中文文本分类中特征选择方法的比较   总被引:1,自引:0,他引:1  
在自动文本分类系统中,特征选择是有效的降维数方法.通过实验对中文文本分类中的特征选择方法逐一进行测试研究,力图确定较优的中文文本分类特征选择方法.根据实验得出:在所测试的所有特征选择方法中,统计方法的分类性能最好,其次为信息增益(IG),交叉熵(CE)和文本证据权(WE)也取得了较好的效果,互信息(MI)较差.  相似文献   

11.
图模型是文本分类中一种比较新的方法,它可以很好地表达词与词之间的关联信息,弥补了传统的以向量空间为基础的文本分类方法的不足。本文介绍了图模型的定义、权值的计算、图的建立方法及分类方法。实验表明,这种方法是有效可行的。  相似文献   

12.
基于文档标引图模型的文本相似度策略   总被引:1,自引:1,他引:1       下载免费PDF全文
文档标引图是一种基于短语的图结构文本特征表示模型,能更加全面、准确地表达文本特征信息,实现渐增的文本聚类和信息处理。该文基于文档标引图特征模型,提出文档相似度计算加法策略和乘法策略,采用变换函数对文档相似度值进行调整,增强文档之间的可区分性,改进文本聚类和分类等处理的性能,实例证明了策略的有效性。  相似文献   

13.
针对目前文本分类中对向量空间模型的依赖以及文档频率(DF)特征提取方法在二值分类方面的不足,提出了基于差异频度的类别空间模型的二值分类方法,该方法突破了向量空间模型的限制,采用改进DF的差异频度方法进行特征提取,实现了二值分类功能。实验结果表明,改进的方法是有效的,其分类结果中精确率、召回率、F1测试值均有改善,提高了分类的准确率。并且本文的方法在其他领域的二值分类中同样值得借鉴。  相似文献   

14.
基于向量空间模型的贝叶斯文本分类方法   总被引:2,自引:0,他引:2  
提出基于向量空间模型的贝叶斯文本分类方法。首先提取出文本训练集的特征词,建立特征向量空间模型。然后采用贝叶斯文本分类方法对未知类别文档进行分类。给出了贝叶斯文本分类方法过程的详细描述和文本分类的一个测试实例。  相似文献   

15.
基于词关联语义的文本分类研究   总被引:5,自引:0,他引:5  
党齐民  吕冬煜 《计算机应用》2004,24(4):62-63,66
文章在对已有文本分类技术研究的基础上,提出了一种基于词关联语义的文本分类方法。该方法根据上下文中的词关联对同义词和多义词进行了有效地区分,经过实际使用该方法可改善文本分类的效率和准确性,取得了较好的应用效果。  相似文献   

16.
文本分类研究逐渐成为网络文本挖掘的研究热点,针对中文文本进行自动分类的研究也在逐渐升温.针对新闻文本的特殊性,在文本分类中经典的向量空间模型的基础上,提出了一套改进的四维向量空间模型及自适应追踪策略,进而提高了新闻文本分类的效果.实验结果表明,算法可以使传统空间向量模型的分类性能由81.5%提高至92.49%,证明算法是有效的.  相似文献   

17.
为实现中文文本的准确分类,提出一种基于词库匹配的分类方法。在测试集中采用向量空间模型进行特征表达,用基于词逆向文档频率(TF-IDF)的主成分分析法计算权值,筛选并建立47个行业的索引词库,然后根据与索引词库的余弦相似度判断文本行业类别,建立自回归积分滑动平均(ARIMA)模型,预测其未来10天发展趋势。实验结果表明,索引词库的平均分类效果指标F值为85.6%,预测模型的平均相对误差为3.41%,证明该分类方法是有效的。  相似文献   

18.
由于短文本长度较短,在分类时会面临数据稀疏和语义模糊等问题.提出新型图卷积网络BTM_GCN,该网络利用双项主题模型(Biterm Topic Model,BTM)在短文本数据集上训练出固定数量的文档级潜在主题,并作为一种节点嵌入到文本异构图中,再与异构图中的文档节点进行连接,最后利用图卷积网络来捕获文档、词与主题节点...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号