首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
基于质心的文本分类算法   总被引:4,自引:1,他引:3       下载免费PDF全文
当文本集较分散或出现多峰值时,基于质心的文本分类算法分类效果很差。针对该问题提出一种改进的文本分类算法,与基于质心的经典分类算法相比,其性能较高。在香港慧科讯业公司提供的文本分类语料库上的测试结果表明,该算法的效率和精度满足要求。  相似文献   

2.
文本分类是研究文本数据挖掘、信息检索的重要手段,文本特征项权重值的计算是文本分类算法的关键。针对经典的特征权重计算方法TF-IDF中存在的不足,提出了一种动态自适应特征权重计算方法(DATW)。该算法不仅考虑了特征项在文本中出现的频率及该特征项所属文本在训练集中的数量,而且通过考查特征项的分散度和特征向量梯度差以自适应动态文本的分类。实验结果表明,采用DATW方法计算特征权重可以有效提高文本分类的性能。  相似文献   

3.
一种基于质心与本体的文本分类方法   总被引:1,自引:0,他引:1  
针对传统的TFIDF模型计算根集(root set)文档特征权重的不适应性,提出了计算文档特征权重的新方法--TFIDF-2模型.另外,给出3种启发式规则用于获取根集文档的质心向量.通过计算文档与质心之间的相似度进行文本分类只是质心的一个初步应用.在这个过程中,提出了一种计算文档与质心之间相似度的新方法.通过一系列的对比实验,分析验证了此种分类方法比传统的分类算法更准确、更高效.最后,验证了将本体与质心相结合提取未标识数据集中相关文档的有效性.  相似文献   

4.
谢华  王健  林鸿飞  杨志豪 《计算机工程》2012,38(1):195-196,210
基于质心的文本分类方法对模型较敏感,分类性能较差。为此,提出一种基于特征选择的类别质心向量构建方法FSCC。计算特征与类别之间的特征选择值,利用质心特征权重计算公式得到类别的质心向量,并采用非归一化的余弦相似度计算文档与质心间的距离,实现文本分类。实验结果表明,与基于质心的方法和支持向量机方法相比,FSCC方法的分类效果更好。  相似文献   

5.
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。  相似文献   

6.
为克服在自动化生产中跟踪打磨工件时受尺度变化、部分遮挡等因素影响跟踪效果的问题,提出了一种基于机器视觉的打磨工件长时间目标跟踪算法。该算法对传统的KCF目标跟踪算法做了尺度估计、质心位置预测和质心修正重定位的改进,首先在与传统KCF算法结合的基础上,计算出运动目标质心位置的同时引进尺度金字塔来进行目标尺度估计;然后提出一种质心位置预测方法估计其质心运动;最后为了防止目标丢失使用质心修正重定位方法进行质心重定位,提高了跟踪的稳定性。实验证明,在工件发生尺度变化、部分遮挡等的情况下,本文方法具有良好的检测效果,并具有较强的鲁棒性。  相似文献   

7.
基于边界可信度相似的快速文本分类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
类别的中心和边界是类别的重要特征.利用训练样本的中心和边界作为分类准则,提出了一种基于边界可信度相似的快速文本分类算法。通过类别边界可信度调整文本与类别的相似性,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高了分类性能。实验结果表明该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率。  相似文献   

8.
传统向量空间模型(VSM)特征间无关联,且不能动态增量训练,不适合主题和焦点实时变化的Internet新闻信息,为此提出了一种改进的文本实时分类模型——动态向量空间模型(DVSM)。通过对VSM的特征提取策略进行改进,提出了特征聚合和增量训练算法。通过将对分类有相同贡献的文本特征词聚合,使用它们共同的分类贡献向量特征模式作为文本特征向量的基本维;采用增量动态训练改变对分类贡献已改变的特征词在文本向量的特征模式中的位置,适应Internet新闻信息的实时特性。使用静态训练集和动态训练集进行的DVSM与传统VSM的对比实验表明,采用特征聚合和动态训练的DVSM在Internet新闻实时分类中优势效果明显优越。  相似文献   

9.
基于类别分布特征的快速文本分类方法   总被引:2,自引:1,他引:1  
中心和边界是类别分布的重要特征.利用训练样本类别分布特征,提出了一种基于类别分布特征的快速文本分类算法.依据类别分布特征调整文本与类别的相似度,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高分类的性能.实验结果表明,该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率.  相似文献   

10.
龚静  胡平霞  胡灿 《微机发展》2014,(9):128-132
TF-IDF算法是文本分类中一种常用的权重计算方法,但是TF-IDF仅仅考虑了特征项在文本中出现的次数以及该特征项在训练集中的出现频率,没有考虑特征项在各个类间的分布情况及特征项的语义信息。因此针对TF-IDF的不足提出了一种改进的TF-IDF算法,此算法既考虑了特征项在类内的分布情况又考虑了特征项的位置及长度等语义因素,能更好地反映特征项的重要性。用朴素贝叶斯分类器验证其有效性,实验结果表明该算法优于TF-IDF算法,能较好地提高文本分类的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号