共查询到10条相似文献,搜索用时 31 毫秒
1.
2.
文本分类是研究文本数据挖掘、信息检索的重要手段,文本特征项权重值的计算是文本分类算法的关键。针对经典的特征权重计算方法TF-IDF中存在的不足,提出了一种动态自适应特征权重计算方法(DATW)。该算法不仅考虑了特征项在文本中出现的频率及该特征项所属文本在训练集中的数量,而且通过考查特征项的分散度和特征向量梯度差以自适应动态文本的分类。实验结果表明,采用DATW方法计算特征权重可以有效提高文本分类的性能。 相似文献
3.
一种基于质心与本体的文本分类方法 总被引:1,自引:0,他引:1
针对传统的TFIDF模型计算根集(root set)文档特征权重的不适应性,提出了计算文档特征权重的新方法--TFIDF-2模型.另外,给出3种启发式规则用于获取根集文档的质心向量.通过计算文档与质心之间的相似度进行文本分类只是质心的一个初步应用.在这个过程中,提出了一种计算文档与质心之间相似度的新方法.通过一系列的对比实验,分析验证了此种分类方法比传统的分类算法更准确、更高效.最后,验证了将本体与质心相结合提取未标识数据集中相关文档的有效性. 相似文献
4.
5.
杜选 《计算机应用与软件》2014,(9)
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。 相似文献
6.
为克服在自动化生产中跟踪打磨工件时受尺度变化、部分遮挡等因素影响跟踪效果的问题,提出了一种基于机器视觉的打磨工件长时间目标跟踪算法。该算法对传统的KCF目标跟踪算法做了尺度估计、质心位置预测和质心修正重定位的改进,首先在与传统KCF算法结合的基础上,计算出运动目标质心位置的同时引进尺度金字塔来进行目标尺度估计;然后提出一种质心位置预测方法估计其质心运动;最后为了防止目标丢失使用质心修正重定位方法进行质心重定位,提高了跟踪的稳定性。实验证明,在工件发生尺度变化、部分遮挡等的情况下,本文方法具有良好的检测效果,并具有较强的鲁棒性。 相似文献
7.
类别的中心和边界是类别的重要特征.利用训练样本的中心和边界作为分类准则,提出了一种基于边界可信度相似的快速文本分类算法。通过类别边界可信度调整文本与类别的相似性,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高了分类性能。实验结果表明该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率。 相似文献
8.
传统向量空间模型(VSM)特征间无关联,且不能动态增量训练,不适合主题和焦点实时变化的Internet新闻信息,为此提出了一种改进的文本实时分类模型——动态向量空间模型(DVSM)。通过对VSM的特征提取策略进行改进,提出了特征聚合和增量训练算法。通过将对分类有相同贡献的文本特征词聚合,使用它们共同的分类贡献向量特征模式作为文本特征向量的基本维;采用增量动态训练改变对分类贡献已改变的特征词在文本向量的特征模式中的位置,适应Internet新闻信息的实时特性。使用静态训练集和动态训练集进行的DVSM与传统VSM的对比实验表明,采用特征聚合和动态训练的DVSM在Internet新闻实时分类中优势效果明显优越。 相似文献
9.
基于类别分布特征的快速文本分类方法 总被引:2,自引:1,他引:1
中心和边界是类别分布的重要特征.利用训练样本类别分布特征,提出了一种基于类别分布特征的快速文本分类算法.依据类别分布特征调整文本与类别的相似度,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高分类的性能.实验结果表明,该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率. 相似文献