首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

2.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核一心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的舍量。实验结果显示.这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

3.
基于类别加权和方差统计的特征选择方法   总被引:1,自引:0,他引:1  
为提高不均衡文本分类的准确率和稳定性,提出了一种基于类别加权和方差统计的联合特征选择方法.首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类别的特征;其次,在探究特征类别区分能力的基础上,设计了类别方差统计策略来凸显含有丰富类别信息的特征;最后,将2种策略相融合,实现了一种联合特征选择的新算法.在Reuters-21578和复旦大学语料这2个不均衡语料上的实验都表明:该算法有效,特别是在小类别的分类效果上远远好于IG、CHI和DFICF等流行的通用算法.  相似文献   

4.
针对有监督特征选择方法因为需要类信息而无法应用于文本聚类的问题,提出了一种新的无监督特征选择方法: 结合文档频和K-Means的特征选择方法。该方法首先使用文档频进行无监督特征初选,然后再通过在不同K-Means聚类结果上 使用有监督特征选择方法来实现无监督特征选择。实验表明该方法不仅能够成功地选择出最为重要的—小部分特征,而且还 能提高聚类质量。  相似文献   

5.
随着网络上非平衡数据的大量涌现,使得对非平衡数据分类的研究成为一个新的研究热点.根据特征在类别中的分布特点,提出了基于类间、类内分布的方法.该方法不但充分考虑了稀有类别信息对特征选择的影响,使得构造的类别分布函数能够相当好地反映稀有特征的信息,而且能够选出对非平衡数据分类贡献大的特征.实验结果表明:此方法的MacroF...  相似文献   

6.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

7.
肿瘤基因选择方法LLE Score   总被引:1,自引:0,他引:1  
针对处理肿瘤基因表达数据特征选择问题,提出了一种特征选择方法 LLE Score.该方法是典型的过滤器类型特征选择方法,在样本类别信息的基础上,LLE Score针对特征向量的局部邻域保存能力进行评价,并且根据评价结果进行特征的选取,以此达到良好的特征选择效果.在实验部分对肿瘤数据集进行特征选择,并采用支持向量机分类器计算分类准确率.通过分类准确率说明了该方法的有效性.  相似文献   

8.
提出了一种快速的文本倾向性分类方法,即采用类别空间模型描述词语对类别的倾向性,基于词的统计特征实现分类;针对倾向性分类的复杂性,在综合考虑词频、词的文本频、词的分布三种统计特征的基础上,提出一种新的二次特征提取方法:第一次特征提取,采用组合特征提取方法,除去低频词以及在各类中均匀分布的噪音词;第二次特征提取,去除类别倾向性不明显的词。实验表明该分类方法不仅具有较高的分类性能,而且运行速度快,在信息检索、信息过滤、内容安全管理等方面具有一定的实用价值。  相似文献   

9.
对网络流量数据进行分类时,由于网络流量具有多个类别,并且各类样本数量不均衡,故在利用机器学习进行分类时,会导致分类的模型的性能降低,致使样本被误分为样本数量多的类别,进而致使样本数量较少的类别(小类别)的召回率过低。针对该问题,提出一种基于卡方方法及对称不确定性网络流量特征选择方法。该方法首先计算特征与类之间的加权卡方值,选择卡方值较大的特征组成候选特征子集,然后根据特征与所有类之间的对称不确定性进一步筛选特征集。在Moore网络流量数据集上进行实验,得到的实验结果证明,通过该方法选择的特征对网络流量数据进行分类,在保证准确率高的前提下也得到了较高的小类召回率,减轻了数据不均衡问题带来的不良影响。  相似文献   

10.
特征选择在垃圾邮件过滤中起着十分重要的作用,本文分析讨论了现有邮件特征选择方法所存在的不足,并在此基础上,提出一种基于博弈论的邮件特征选择模型。该模型将博弈论应用于邮件特征选择中,以达到约减信息规模,提高垃圾邮件过滤效率的目的。在设计特征选择模型时,考虑到邮件样本自身的模糊隶属性对特征选择所产生的影响,在特征点对邮件类别的区分度定义中,通过引入由相融性度量定义的样本模糊隶属度函数,提高博弈邮件特征选择模型对实际问题的处理能力。在CDSCE语料库上的实验表明,该邮件特征选择模型的性能优于同类其他特征选择方法,验证了该邮件特征选择模型的有效性。  相似文献   

11.
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。  相似文献   

12.
为了避免倾向于高频词的信息增益(information gain,IG)方法忽略各类别间的相似性特点,提出了一种基于特征分布的选择方法对IG进行修正,使真正拥有高类别区分信息的特征项被保留.同时,对最大期望值(expectation maximization,EM)算法的效率低下问题加以改进,将拥有较高后验类别概率的未标注文档逐步从未标注文档集转至已标注文档集,有效减少算法迭代次数.测试结果表明,基于特征分布的半监督学习方法在Reuter-21578和Epinion.com两个不同特点的数据集上都取得了较好的分类效果和性能.  相似文献   

13.
特征选择是生物信息领域中数据预处理阶段必不可少的步骤。传统特征选择算法忽视了特征之间的依赖相关性和冗余性,因此提出一种联合互信息的特征选择算法(JFRR)。该算法利用互信息计算特征之间的冗余值,并利用联合互信息分别计算已选特征集合、候选特征及类标签之间的相关性。将JFRR与其他6个特征选择算法在2个分类器上,使用9个不同基因数据集,进行分类准确率指标(Precision_micro和F1_micro)验证。实验结果表明,该算法能有效提高分类精度。  相似文献   

14.
为识别齿轮裂纹的严重程度信息,提出一种基于有序分类的故障严重程度识别方法.将故障严重程度识别问题视为不同严重程度之间存在序结构,并且部分特征和故障严重程度之间存在单调依赖关系的有序分类问题,从有序分类出发,建立有序分类的故障严重程度识别模型.研究故障严重程度识别中的特征评价和特征选择问题,利用排序互信息指标区分原始特征集中的单调特征和非单调特征,提出单调特征和非单调特征混合存在情况下的有序分类特征选择算法.齿轮裂纹程度识别实验结果表明:提出的有序分类特征选择算法可以降低特征空间维数,能选择出分类能力强的故障特征子集,提高了故障严重程度识别的准确性.  相似文献   

15.
基于支持向量机和遗传算法的水下目标特征选择算法   总被引:6,自引:0,他引:6  
基于统计学习理论和遗传算法理论,提出了一种基于支持向量机和遗传算法相结合的水下目标特征选择算法。通过对实测数据的特征集的优化选择实验,证明了该算法的有效性和鲁棒性,它能较好地解决在复杂水下目标信号所提取的特征维数高,样本采样困难,数目偏少的实际情况下的分类识别问题。  相似文献   

16.
在石漠化信息的分类和提取过程中,冗余特征的存在影响分类器的性能,同时增加计算的复杂度。提出一种基于K2结构学习算法的石漠化数据特征选择方法,该方法通过BIC评分方法得到贝叶斯网络的结构,从中获得类节点的马尔可夫覆盖,继而进行特征选择。同时借用不同评分函数的等价性来确定结构学习时所需的样本数,并且给出了样本数的参考。实验表明,该方法由于结合了样本的分类信息,获得的特征子集是最优的,显著提高了分类精度,降低了计算复杂度。  相似文献   

17.
Featuresubsetselection(FSS)istoselectrele vantfeaturesandcastawayirrelevantandredundantfeaturesfromtheoriginalfeaturesetaccordingtoaFSSmeasure[1].IfafeaturesubsetsatisfiestheFSSmeas ureandhastheminimumsize,itisconsideredapartoftheoptimalfeaturesubset.Comp…  相似文献   

18.
Feature selection is an important problem in pattern classification systems. High dimension fisher criterion(HDF) is a good indicator of class separability. However, calculating the high dimension fisher ratio is difficult. A new feature selection method, called fisher-and-correlation(FC), is proposed. The proposed method is combining fisher criterion and correlation criterion based on the analysis of feature relevance and redundancy. The proposed methodology is tested in five different classification applications. The presented results confirm that FC performs as well as HDF does at much lower computational complexity.  相似文献   

19.
针对自然语言在语句结构上有着较强的前后依赖关系,提出一种基于BERT的复合网络模型进行中文新闻分类。首先利用BERT的基于注意力机制的多层双向transformer特征提取器获得字词以及句子之间更加全局的特征关系表达。然后将所得数据输入门结构更加简单的双向门控循环神经网络层将特征增强的同时减少时间代价,加强数据特征的选取精确度。最后将不同权重的文本特征信息输入softmax函数层进行新闻分类。通过在cnews新浪新闻数据集上进行实验,获得97.21%的F1值,结果表明所提特征融合模型较其他模型分类效果更好。  相似文献   

20.
基于改进遗传算法的超光谱图像特征选择方法   总被引:2,自引:0,他引:2  
提出的特征选择新方法充分利用遗传算法并行搜索、全局寻优的优点,并结合超光谱图像特征选择的具体应用,选择表征类别可分性的判别标准作为评价函数计算个体适应度,通过交叉和变异操作实现个体进化.为加快算法收敛速度,提高遗传算法性能,在遗传算法中引入了两代竞争机制,获取最佳的分类特征组合.利用一幅200波段的AVIRIS超光谱图像进行的仿真实验结果表明,所提出的方法用于特征选择具有分类精度高,计算耗时少的优点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号