首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于反馈信息的特征权重调整方法   总被引:2,自引:1,他引:1       下载免费PDF全文
训练集的分布对文本分类质量有重要影响。该文对两类文本分类中的数据集偏斜问题进行研究,提出一种基于反馈信息的特征权重调整方法,该方法综合考虑正确分类和错误分类的文本数来调整词的权重,以降低训练过程中对小类别的不公平待遇。实验结果表明,该方法有效地解决了数据集偏斜对文本分类的影响,分类质量得到提高。  相似文献   

2.
文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方面出发,提出了一种组合的不均衡数据集文本分类方法。在特征选择方面,综合考虑特征项与类别的正负相关特性及类别区分强度对传统CHI统计特征选择方法予以改进。在数据层上,采用数据重取样方法对不均衡训练语料的不平衡性过滤减少其对分类性能的影响。实验结果表明该方法对不均衡数据集上文本可达到较好分类效果。  相似文献   

3.
KNN算法在数据挖掘的分支-文本分类中有重要的应用。在分析了传统KNN方法不足的基础上,提出了一种基于关联分析的KNN改进算法。该方法首先针对不同类别的训练文本提取每个类别的频繁特征集及其关联的文本,然后基于对各个类别文本的关联分析结果,为未知类别文本确定适当的近邻数k,并在已知类别的训练文本中快速选取k个近邻,进而根据近邻的类别确定未知文本的类别。相比于基于传统KNN的文本分类方法,改进方法能够较好地确定k值,并能降低时间复杂度。实验结果表明,文中提出的基于改进KNN的文本分类方法提高了文本分类的效率和准确率。  相似文献   

4.
不均衡数据集上文本分类的特征选择研究   总被引:3,自引:0,他引:3  
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进.  相似文献   

5.
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。  相似文献   

6.
文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整体来考虑,不能表示特征项与类别之间的关联特性。针对该弊端本文引进了x2统计量函数计算权重。实验结果表明改进的TF-IDF权重算法是可行的,同时也比较好地提高了分类器的性能。  相似文献   

7.
通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上进行分类的适用性及影响分类性能的原因。结果表明:三项指标可以有效指明分词方法对语料在分类时产生的影响,Ik Analyzer分词法和ICTCLAS分词法分别受类别复杂度和类别聚类密度的影响较大,二元分词法受三个指标的作用相当,使其对于不同语料具有较好的适应性。对于学术文献类型的语料,使用二元分词法时的分类效果较好,F1值均在80%以上;而网页类型的语料对于各种分词法的适应性更强。本文尝试通过对语料进行信息度量而非单纯的实验来选择提高该语料分类性能的最佳分词方法,以期为网页和学术文献等不同类型的文本在基于LDA模型的分类系统中选择合适的中文分词方法提供参考。  相似文献   

8.
针对文本分类中传统特征选择方法卡方统计量和信息增益的不足进行了分析,得出文本分类中的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计的特征选择评估函数,并利用该特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为各类别特征词库的并集。通过基于SVM的中文文本分类实验表明,该方法与传统的卡方统计量和信息增益相比,在一定程度上提高了文本分类的效果。  相似文献   

9.
KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低。鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率。实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升。  相似文献   

10.
模糊kNN在文本分类中的应用研究   总被引:1,自引:0,他引:1  
自动文本分类是根据已经分配好类标签的训练文档集,来对新文档分配类标签.针对模糊kNN算法用于文本分类的性能进行了一系列的实验研究与分析.在中英文两个不同的语料集上,采用四种著名的文本特征选择方法进行特征选择,对改进的模糊kNN方法与经典kNN及目前广泛使用的基于相似度加权的kNN方法进行实验比较.结果表明,在不同的特征选择方法下,该算法均能削弱训练样本分布的不均匀性对分类性能的影响,提高分类精度,并且在一定程度上降低对k值的敏感性.  相似文献   

11.
机车空调逆变电源设计   总被引:1,自引:0,他引:1  
本文讨论的是机车空调逆变电源系统的设计与研究。该电源系统主要是由DC/DC的BOOST升压部分和DC/AC三相逆变部分两部分组成。DC/DC部分所得直流电压通过DC/AC部分逆变成三相交流电,供给空调机组工作。同时,为使电源系统能更可靠的运行,也设计了相应的故障检测、保护等辅助电路。  相似文献   

12.
联合收割机脱粒滚筒恒速智能控制器设计   总被引:2,自引:0,他引:2  
研究了轴流式联合收割机的控制问题,给出了联合收割机脱粒滚筒的数学模型,介绍了基于模式识别的智能控制原理,建立了联合收割机脱粒滚筒恒速控制模型,设计了基于模式识别的智能恒速控制器.应用Matlab/Simulink进行了控制器仿真,其结果表明,将基于模式识别的智能控制应用于联合收割机脱粒滚筒的恒速控制,其过渡过程平稳、响应速度快、无超调、无振荡并且无稳态误差.  相似文献   

13.
讨论了几种实用的计算机辅助课表编排技术及在实际编排中的应用。应用分析表明,采用分批与或图搜索和分批优化的匈牙利算法相结合的方法,在计算机辅助课表编排中是行之有效的。  相似文献   

14.
The problem to find a 4-edge-coloring of a 3-regular graph is solvable in polynomial time but an analogous problem for 3-edge-coloring is NP-hard. To make the gap more precise, we study complexity of approximation algorithms for invariants measuring how far is a 3-regular graph from having a 3-edge-coloring. We show that it is an NP-hard problem to approximate such invariants with an error O(n1−ε), where n denotes the order of the graph and 0<ε<1 is a constant.  相似文献   

15.
介绍关于桥梁结构损坏状态评估专家系统,在讨论状态评估方法的基础上,重点介绍损坏状态评估因素关系树的建立及各因素状态的模糊表达式等,最后以桥面诊断过程为例介绍系统的构成及诊断流程图,知识表达方式,系统推理过程及工作流程。  相似文献   

16.
We consider a number of decision problems, that appear in the dynamical systems and database literature, concerning the termination of iterates of real functions. These decision problems take a function as input and ask, for example, whether this function is mortal, nilpotent, terminating, or reaches a fixed point on a given point in . We associate topologies to functions and study some basic properties of these topologies. The contribution of this paper is a translation of the above mentioned decision problems into decision problems concerning well-known properties of topologies, e.g., connectivity. We also show that connectivity of topologies on is undecidable for n>1.  相似文献   

17.
对三维喷绘软件系统的设计,通过USB 2.0实现与喷绘主板的高速图像数据通信。基于ARM与MCX314的运动控制器实现实时三轴运动控制以及精确的喷头时序控制,论述USB驱动程序和ARM固件的开发。结果表明,该系统具有设计简洁、成本低、可扩展性强和实用性高等特点。  相似文献   

18.
矿用传感器的伪数据滤除方法   总被引:2,自引:1,他引:1  
介绍了矿用传感器的组成和工作原理,分析了矿用传感器伪数据的表现形式和产生的原因,并从抗干扰设计、低功耗设计和信号输出方式等方面提出了矿用传感器伪数据滤除的基本方法。实际应用表明,该方法减少了矿用传感器产生伪数据的几率,提高了矿用传感器的稳定性和安全监控系统的可靠性。  相似文献   

19.
通过使用可编程控制器中的专用脉冲输出指令和高速计数器,实现了对辐照仪步进电机的精确控制。介绍了辐照仪的工作过程和控制系统的组成,给出了控制软件的流程及控制步进电机转动误差的措施,并利用触摸屏实现了人机界面控制。实际应用表明,该系统性能可靠、控制精确、实用性强。  相似文献   

20.
针对<敷据库系统概论>课程的教学性质,结合其理论和实践教学并重的教学特点,对该门课程的本科生教学进行了探索.分析该门课程的体系结构和教学中存在的问题,给出了相应的解决办法,对该门课程的教学方法进行了研究、探索和总结.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号