首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
基于改进的kNN算法的中文网页自动分类方法研究   总被引:6,自引:0,他引:6  
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.  相似文献   

2.
为了解决现有电力造价异常数据检测算法无法识别清单详情及清单与施工细节不符的问题,提出了一种基于规则匹配的电力造价异常数据辨识算法.利用K-means聚类算法实现了清单的初步分类和特征清单的提取,将特征清单的特征词作为清单类别特征.采用规则库对清单详情进行分词,并提取清单特征词,采用多项式贝叶斯算法计算出清单位于当前类别的概率.实验结果表明,所提出算法较传统异常数据检测算法的准确率提高了约10%.  相似文献   

3.
针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重;利用当前类别补集的特征表示当前类别的特征并结合特征词在文档中的权重,解决分类器容易倾向大类别而忽略小类别的问题。与传统的朴素贝叶斯及补集朴素贝叶斯算法进行对比实验,结果表明:在样本集分布不均衡时,改进算法的性能表现最优,分类准确率、召回率及G-mean性能分别可达82.92%、84.6%、88.76%。  相似文献   

4.
提出一种基于文本分类技术的评审专家自动推荐模型,通过文本分类技术对评审专家所发表的论文进行所属学科领域的分类,进而判断出评审专家的主要研究领域。模型采用了基于TF/IDF特征权重阈值的向量空间模型算法和改进后的ATSVM分类算法。实验结果表明,改进后的ATSVM分类算法可以增加交互的过程使训练得到的分类器具备自学习的能力,改进后的主动学习SVM分类器在多类别的分类上能够精确分类并且提高分类速度。  相似文献   

5.
中文微博情感分析中主客观句分类方法   总被引:2,自引:0,他引:2  
采用朴素贝叶斯分类器对微博语句的主客观分类问题进行研究。首先分析微博文本和其他文本的主要区别,并针对微博文本的表述特点提取一些主客观线索特征,然后对2-POS模式的最佳选取方式进行研究,最后以特征词和主客观线索做语义特征,2-POS模式做语法特征,采用朴素贝叶斯分类器分别研究它们对分类结果的影响。实验结果表明,同时考虑语义特征和语法结构特征的分类效果比仅考虑一种特征时要好。  相似文献   

6.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

7.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核一心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的舍量。实验结果显示.这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

8.
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。  相似文献   

9.
文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤.为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量两个方面考虑特征词对分类的全局作用,将文本的类别属性信息引入到权重中.通过文本分类实验证明,该加权方法有助于提高分类系统的分类效果.  相似文献   

10.
互联网网页数量爆炸性地增长,使得网页文档分类技术研究成为目前Web挖掘的一大热点.针对面向某特定领域文档的特点,提出一种基于层次特征词权重的文档特征表示方法,以此为基础,在网页文档分类时,通过对网页结构和文本链接分析,设计了网页文档分类算法HFSHA(Text Categorization Algorithm Based on Hierarchy Feature Word Weight and Structure and Hyperlink Analysis).在服装网页文档语料库上的分类实验表明,对服装专业文档HFSHA算法比基于向量空间模型(VSM)的普通文本分类算法的分类准确率高.  相似文献   

11.
针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性. 针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用. 实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力.  相似文献   

12.
针对Android应用数目庞大、功能多样而难以准确验证应用实际类别的情况,对Andriod应用的网络行为进行分析研究,提出应用的行为一致性理论,并实现一种基于网络行为一致性验证的LSTM分类模型.通过构造不同场景事件组合来触发不同功能类别应用运行时的网络行为,提取有效的网络特征构建成网络事件行为时序序列,并设计带有特殊输入结构的LSTM循环神经网络模型,对网络事件行为时序序列中潜在的行为模式进行学习与建模.实验验证结果表明,Android应用样本具有行为一致性;所提出的LSTM网络模型能有效地学习与归纳不同类别应用的网络行为模式;最优模型的平均分类准确性可达92.58%,优于常见的面向Android应用的机器学习分类模型.  相似文献   

13.
为解决电力信息通信客服系统在故障研判时存在故障分类准确率低甚至误分的问题,提出基于层次化类别嵌入的文本分类方法,进行电力信息通信系统故障识别.首先,基于电力信息通信系统故障的用户保修工单文本数据构建电力信息通信系统层次化电力故障标签;其次,提出了基于层次化深层金字塔卷积神经网络和基于层次化中断循环神经网络2种层次化文本分类方法,采用层次化类别嵌入方法逐层进行故障类型分类.实验结果表明,基于层次化深层金字塔卷积神经网络的方法效果最优,可以提供高效、准确的故障识别服务.  相似文献   

14.
为了对突发事件Web新闻进行更精确的分类,研究了突发事件Web新闻的多层次自动分类方法.该方法初步分析了突发事件Web新闻的分类,给出3层分类器的构造方法,即第1级和第2级通过规则定制来完成,第3级通过统计学习训练并实现,并研究了HTML文本向量空间模型及特征项的抽取方法.将该自动分类方法在甲型H1N1、法国空难以及汶川大地震等突发事件的Web新闻中进行了训练和测试.实验结果表明,所提方法的分类效果优于改进前的方法.  相似文献   

15.
为了进一步提高文本层次分类的性能,在传统层次分类方法的基础上融入了松弛策略思想,在构造层次结构的过程中,该方法推迟了不确定类别的节点判定,直到可以明确所属类别,大大降低了高层节点分类错误对低层节点分类性能的影响,即"阻滞"问题的有效缓解.实验结果表明:松弛策略思想可以构建更加合理的层次结构,并进一步提高了分类的性能;相对于支持向量机等其他分类方法,在时间性能上更加高效,对于大规模文本分类任务而言具有重要意义.  相似文献   

16.
针对博文内容包含多主题、类别归属不明显,以及传统的文本分类方法直接应用于博文效果不理想等问题,提出了一种基于标签的博客文章分类方法.该方法将文本分类问题转化为图优化问题,并提出了一种利用迭代算法计算图中节点属于各类别的概率值.实验结果表明,与传统的文本分类方法相比,所提出的分类方法有效地提高了博文的分类性能.  相似文献   

17.
文本归类是处理大量文本数据自动分类的重要技术。基于粗集理论建立的林业文本信息归类系统,是在已知类别的训练集的基础上,通过分析训练数据样本,建立决策表产生区分矩阵构造出区分函数,并化简它,得到最小属性约简,最后应用Apriori算法产生最终分类的规则表,利用产生的规则表,可将林业文本信息数据进行自动归类。  相似文献   

18.
一种基于概念层次的文本特征权重计算方法   总被引:1,自引:0,他引:1  
特征权重计算是文本表示的关键,权重计算方法的优劣直接影响文本分类和聚类的准确度。基于词形和词频统计的特征加权方法过于近似和粗糙,不能有效突出具有较强类别区分度的重要特征,难以有效区分两类特征,造成了高维稀疏问题,使文本分类性能不够理想,这是特征权重计算的主要障碍。提出一种基于概念层次的特征权重计算方法,将词空间转移为概念空间,在概念层次上引入特征支持度与类别强度两个参数对特征权重进行调整。实验表明,新的方法表现了较好的分类性能,在空间维度的压缩与计算效率上也有明显的改善。  相似文献   

19.
为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.  相似文献   

20.
目前有多种特征提取方法用于文本自动分类,其中CHI方法效果较好,研究发现CHI方法存在着词与类别的无独立性假设及计算复杂度高等缺点,提出一种改进了的CHI方法ICHI(ImprovedCHI),通过分类实验仿真数据显示,在SVM与KNN分类中这种改进后的特征提取方法ICHI特征提取效果优于传统的CHI方法,改进后的方法ICHI能提高文本分类的准确率,适合局部特征提取.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号