首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
基于人工神经网络集成的微阵列数据分类   总被引:2,自引:0,他引:2  
基因数量远多于样本数量是基因表达微阵列数据进行疾病诊断所面临的主要挑战,为此提出了采用人工神经网络集成的组织分类方法.该方法使用Wilcoxon测试选择用于与分类相关性较高的重要基因,通过凸伪数据法产生神经网络集成中各个体的训练集,用简单平均法集成网络个体的测试结果.采用实际的微阵列实验数据集分别进行独立测试和交叉验证测试,结果表明,该方法性能优于单个神经网络、最近邻法和决策树.受试者特征曲线测试表明,神经网络集成性能优于单个神经网络.  相似文献   

2.
针对声音、图像等高维数据的分类问题,提出了一种快速算法。首先通过非线性特征映射,将各个类别的训练样本集转换到特征空间中,构造相应的特征子空间,然后提取它们的主要特征。特征映射能够降低特征子空间的维数,并增强它们之间的两两正交性,提高了分类的准确性。在进行分类时,该方法将测试样本向各个特征子空间投影,并计算投影残差,测试样本即为投影残差最小的特征子空间的样本。与传统的分类方法不同,快速算法能一次区分多个类别,并具有与支持向量机相同的准确率。又使用了流形学习理论对快速算法进行改进,在保持准确率的前提下,极大地降低了特征子空间的维数,验证了流形学习理论的应用价值。  相似文献   

3.
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.  相似文献   

4.
针对在单样本人脸识别中每类个体的鉴别性特征难以提取的问题,提出一种基于子模式的单 样本人脸识别方法.所提方法考虑了人脸的不同部位对人脸识别精度有不同的贡献度,并引入外部 人脸数据集来训练学习得到每类个体的鉴别性特征.在进行人脸识别时,采用人脸校准算法提取人 脸的5个基准点,并以此为中心将人脸划分成5个固定大小的子模式.在每个子模式的特征提取 上,引入外部人脸数据集,并结合SVM 算法训练得到属于每个子模式的分类器.最后,对每个子模 式的分类结果做加权融合,得到最佳识别对象.在3个公开的人脸数据集Extend-Yale-B,ORL,AR 上与现有方法进行实验比较,结果表明所提方法在识别精度上有较大提升.  相似文献   

5.
针对现实中由于训练集与测试集分布不同而导致分类准确率较低的问题,提出基于判别性样本选择的无监督领域自适应方法(简称DSS算法)。为了减少源域和目标域的分布差异,将2个领域样本投影到同一子空间中,并对源域中的样本进行加权,使样本更具有判别性;不同于以往基于样本的概率密度估计方法,通过求解一个二次规划问题得到样本权重,避免了对样本分布进行估计,适用于任何领域且不会受到高维密度估计所造成的维数困扰;最后通过最小化类内距离来实现同类聚集。实验结果表明,该方法提高了数据集的分类准确率且具有较好的鲁棒性。  相似文献   

6.
针对化工生产过程中高维数据故障特征难以学习和提取的缺点,提出一种基于二维卷积神经网络的化工过程故障检测方法.首先,采集化工过程不同故障的数据构成训练集和测试集;然后,对训练集和测试集中对应的正常样本和故障样本标注标签;最后,将训练集中的样本数据作为卷积神经网络的输入来训练、优化模型.方法应用于田纳西-伊斯曼化工过程,数据结果表明:二维卷积神经网络能够提取出原始数据中样本与样本、变量与变量之间更为抽象的高层数据特征,通过特征提取和学习后的重构特征数据输入到全连接层BP神经网络进行故障分类,比单独使用全连接BP神经网络的检测率提高了14.42 %,误报率降低了2.55 %.  相似文献   

7.
稀疏最小二乘支持向量机   总被引:4,自引:0,他引:4  
针对大规模数据集的回归和分类问题,改进了最小二乘支持向量机.以再生核希尔伯特空间中的线性分析为基础,把样本集映射到再生空间中,然后张成再生空间的一个线性子空间,并求出这个子空间的基.利用基线性表示子空间中的其他元素,减小了求解矩阵的维数,通过求解规模相对较小的线性方程组完成对支持向量机的训练.采用该方法对较大规模的数据样本进行了回归和分类仿真试验,并与普通的最小二乘支持向量机进行比较.结果表明,采用该方法解决复杂非线性函数的回归和分类问题,不但可以得到稀疏解,而且计算速度比普通最小二乘支持向量机提高了约20%.  相似文献   

8.
基于核化原理,提出核最优变换与聚类中心算法.算法通过非线性变换,将数据映射到核空间,并在核空间中执行最优变换与聚类中心算法.该算法可提取稳健的非线性鉴别特征,解决复杂分布数据的模式分类问题.同时,基于训练样本在核空间所张成的子空间的一组基,提出一个快速提取鉴别特征的计算方法,解决了一般核方法面临的“大训练集”难题.基于IRIS,YEAST,GLASS等数据的分类实验验证了该方法的有效性.  相似文献   

9.
特征空间线性降维压缩遥感图像云检测方法   总被引:2,自引:0,他引:2  
针对遥感图像云检测过程中分类特征空间维数过高引起的信息冗余,提出了一种基于特征空间线性降维压缩的云检测方法.首先选取云与地物的分类特征参量,构造特征空间,基于压缩子空间分类信息表述的完备性,建立样本的概率分布模型.然后利用最大似然估计法求解模型参数,估计最佳转换矩阵,进行特征空间的降维压缩与去相关处理.最后针对压缩子空间,利用分类器进行云检测.实验结果表明: 本方法能够有效地去除云与地物分类特征之间的冗余,实现二维压缩子空间中云与地物两类样本的有效分离,对于实际光学遥感图像的云检测概率高达98%以上.  相似文献   

10.
针对在小样本图像分类中,几个样本的特征图不足以描述整个类特征空间,导致误分类的问题,提出了滑动特征向量神经网络(SFV),该方法通过集合同类样本的滑动特征向量构建类特征空间,并利用样本-类的特征向量度量方式分类查询样本。SFV融合了特征块的边缘信息以及位置结构的相关性,最大限度地利用深层特征信息的同时扩充了类特征空间。实验表明:在各数据集中SFV均能取得不错的效果,在细粒度数据集上,达到了最佳精度。  相似文献   

11.
肿瘤基因选择方法LLE Score   总被引:1,自引:0,他引:1  
针对处理肿瘤基因表达数据特征选择问题,提出了一种特征选择方法 LLE Score.该方法是典型的过滤器类型特征选择方法,在样本类别信息的基础上,LLE Score针对特征向量的局部邻域保存能力进行评价,并且根据评价结果进行特征的选取,以此达到良好的特征选择效果.在实验部分对肿瘤数据集进行特征选择,并采用支持向量机分类器计算分类准确率.通过分类准确率说明了该方法的有效性.  相似文献   

12.
In learning and classification problems, feature selection (FS) is critical in finding features that are both meaningful and non-redundant. Today, big data is an integral aspect of all industry sectors. All firms in any industry, such as power, finance, commerce, electronics, communications, and so on, create massive amounts of heterogeneous data that needed to be handled effectively and evaluated correctly. When it comes to big data, feature selection approaches are taken as game-changer since they can assist in minimizing the complexity of genetic data, making it simpler to study and translating it into meaningful information. To enhance classification performance, feature selection is done to remove unnecessary and redundant characteristics from the dataset. In this paper, we presented a novel Grey Wolf Approach based on Quantum leaping neighbor memeplexes which is termed QLGWONM for feature selection and reduction to achieve better classification accuracy. The paper implemented other optimization algorithms such as particle swarm optimization (PSO), slime mould algorithm (SMA), salp swarm algorithm (SSA), artificial butterfly algorithm (ABA), whale optimization (WO), crow search optimization algorithm (CSA), and Jaya models. After the implementation of these algorithms, QLGWONM outperformed other algorithms. The QLGWONM model performed well with an accuracy of 100% for Brain Tumor, CNS, Lung dataset and 97.1% for Ionosphere dataset, and 99% for NSL-KDD. Apart from these, some state-of-art comparisons were also evaluated and QLGWONM gave better results as compared with other existing algorithms.  相似文献   

13.
在分析了传统特征选择方法构造的4项基本信息元素的基础上提出一种强类别信息的度量标准,并在此基础上,提出一种适用于不平衡文本的特征选择方法。该方法综合考虑了类别信息因子、词频因子,分别用于提高少数类和多数类类别分类精度。该方法在reuter-21578数据集上进行了实验,实验结果表明,该特征选择方法比IG、CHI方法都更好,不但微平均指标有一定程度的提高,而且宏平均指标也有一定程度的提高。  相似文献   

14.
在网络入侵检测中,由于原始数据特征维度高和冗余特征多,导致入侵检测系统的存储负担增加,检测分类器性能降低。针对该问题本文提出了一种基于信息论模型的入侵检测特征提取方法。它以具有最大信息增益的特征为搜索起点,利用搜索策略和评估函数迭代调整数据集分类标记、已选取特征子集和候选特征三者之间的相关度,最后通过终止条件确定选取特征子集。以入侵检测样本数据集为实验数据,将该方法选取的特征向量运用到支持向量机分类算法中,在特征维度大幅度降低的情况下,检测精度变化很小。实验结果证明了本方法的有效性。  相似文献   

15.
为了利用商品文本标题实现商品自动分类,提出一种基于高层特征融合的商品分类模型.首先,提出基于字嵌入和词嵌入的文本底层特征表示法,进而获得更强的商品标题结构特征表达;其次,提出了联合自注意力、卷积神经网络和通道注意力的机制,对文本标题的底层特征进行增强并获得高层增强特征;最后,通过将文本的字嵌入和词嵌入的高层增强特征进行融合,最终获得商品文本标题的综合特征,并实现商品自动分类.以商品标题语料作为数据集进行了实验,实验结果表明,该模型对三级商品类别的分类精度能够达到84.348%,召回率和F1值分别达到了47.8%和49.4%,优于现有可用于商品文本标题分类的先进短文本分类方法.  相似文献   

16.
针对传统单标签特征选择算法不能直接应用于多标签数据的问题,提出一种多标签特征选择算法——MML-RF算法.在ReliefF的基础上,MML-RF算法提出新的类内最近邻样本查找方式,并结合多标签的贡献值改进特征权值的计算方法,能很好地适应多标签数据的特点;同时为了减少特征冗余,MML-RF算法以互信息作为特征冗余度量方式,提出一种去冗余方法,能够得到更小的特征子集.实验表明,MML-RF多标签特征选择算法得到的特征子集规模较小,且在多标签数据集上具有很好的分类效果,能够提升多标签学习和数据挖掘工作的效率.  相似文献   

17.
针对短文本分类问题,提出基于伪相关反馈(PFR)的短文本扩展与分类方法.在保持语义不变的情况下,利用互联网中的相似语料对短文本的内容进行了扩展.对现有的仅使用局部特征的扩展语料特征抽取方法进行改进,引入全局特征抽取,将全局特征与局部特征相结合得到了更好的特征向量,有效地解决了分类过程中由短文本长度有限导致的特征矩阵高度稀疏的问题.通过在开放数据集上的测试和与其他文献的结果比对,验证了该方法在短文本分类的问题上可以取得较好的效果.  相似文献   

18.
根据结肠癌肿瘤基因表达谱样本高维数、小样本和高噪声的特点,提出用Bhattacharyya 距离对肿瘤基因进行测量,滤除分类无关基因,然后用肿瘤基因对支持向量机模型的敏感度进行二次提取.并用它的归一化值对重要基因赋权,形成只有少数重要致病肿瘤基因的新样本集.最后,支持向量机应用于对新样本集的特征基因进行分析与测试.实验证明这种分析方法提高了肿瘤诊断的准确率.  相似文献   

19.
常用的排列法从微阵列数据中选择的基因集合会包含相关性较高的基因,这会影响分类器的性能,为了去除这些冗余基因(特征),提出了无监督的特征选择算法.该算法主要包含:将原始特征集划分为一组相似的子集(聚类);从每个聚类中选择代表性特征.特征的划分采用特征间的相关性作为测度以k近邻原则来完成.该算法无需指定聚类数量,时间复杂度低.真实的生物学数据实验证明该算法可显著提高分类器的分类准确性.  相似文献   

20.
针对助听器应用中背景噪声场景分类算法需同时具备低延时性和高分类准确率的问题,提出一种基于LightGBM集成学习模型的助听器场景分类算法以减少分类过程的计算时间,给出一种新的子带谱相关性特征并联合子带谱熵特征构成分类特征来提高助听器场景分类的准确率,使用双耳差分信号提取子带谱特征减少计算过程中的内存占用率以及模型离线训练工作量,提高计算效率。对双耳助听器声学环境识别数据集中的安静室内、交通环境、风噪声、音乐、鸡尾酒会、汽车噪声6种场景下的背景声音进行测试,实验结果表明,相对于基于随机森林模型和子带信号周期性特征、子带信号熵特征的场景分类算法,该算法在实时性和分类准确率方面的性能均有显著改善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号