共查询到10条相似文献,搜索用时 15 毫秒
1.
基于隐马尔可夫模型的文本分类算法 总被引:2,自引:0,他引:2
自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系。提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以文档类别的特征词序列作为不同HMM分类器的观察序列,而HMM的状态转换序列则隐含地表示了不同类别文档内容的形成演化过程。分类时,具有最大生成概率的HMM分类器类标即为测试文档的分类结果。该算法构造的分类器模型一定程度上体现了不同类别文档的语法和语义特征,并可以实现多类别的自动文本分类,分类效率较高。 相似文献
2.
为了降低在传统的文本分类方法中自然语言的不确定性对分类效果的影响,提出了一种结合云模型的文本分类方法。该方法分别定义文本和类别的云模型,通过计算测试文本和每个类别的云相似度,根据最大相似度原则确定测试文本所属的类别。实验结果表明,与传统的K-NN算法相比,该方法在分类准确率等方面有所提高。 相似文献
3.
4.
5.
6.
随着因特网的迅猛发展,如何快捷、准确地识别和获取有用信息显得越来越重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下.根据文本的内容自动判别文本类别的过程。由于一个文本可能属于多个不同的类别.本文应用BOOSTING算法设计实现了一种多类多标签文本分类方法,并着重时迭代次数和判定阚值的选择进行研究。实验表明.该分类器对多类多标签的文本分类是有效的。 相似文献
7.
向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。 相似文献
8.
KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低。鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率。实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升。 相似文献
9.
文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中,文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理。提出基于最近支持向量机的样本距离公式,避免k参数的选定,以SVM与KNN分类算法的特殊组合算法(SV-NN)实现了哈萨克语文本的分类。结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验,数值实验展示了提出算法的有效性并证实了理论结果。 相似文献
10.
传统的KNN算法存在分类效率低等缺点.针对这些缺点,本文提出一种高效的结合多代表点思想的加权KNN算法,利用变精度粗糙集上下近似区域的概念,结合聚类算法生成代表点集合构造分类模型,再运用结构风险最小化理论优化分类模型并对影响分类模型的因素进行分析.分类过程中根据测试样本与各代表点的相似度,得到测试样本的相对位置.其中属于样本点下近似区域的测试样本可直接判断其类别.若测试样本在其他区域,则根据测试样本与各代表点的相对位置对各代表点覆盖范围内的样本进行加权后判断测试样本的类别.在文本分类领域的数据集上进行实验,结果表明该算法能有效的提高分类模型的性能. 相似文献