排序方式: 共有42条查询结果,搜索用时 8 毫秒
1.
微生物会对人类健康产生直接影响,对相关数据的分析有助于疾病诊断。然而,采集到的数据存在类不平衡与高稀疏性两个问题。现有的过采样方法在一定程度上可缓解数据的类不平衡,但是难以应对微生物数据的高稀疏性。本文提出了一种融合矩阵分解和代价敏感的数据扩增算法,其包含3个技术。首先,将原始矩阵分解为样本子空间和特征子空间;其次,利用样本子空间的正向量及其近邻向量生成合成向量;最后,根据合成向量与所有负向量的距离对其过滤。实验在8个微生物数据集上进行,同时与5种过采样算法对比,结果表明本文所提算法能够增强正样本的多样性,在识别出更多正样本的同时,分类结果的代价更低。 相似文献
2.
提出了一种新的针对彩色图片中的人眼定位算法。该算法将粗糙集与肤色模型相结合,在对人脸区域的粗定位基础上,根据不同灰度值点的分布函数以及相似度模型提供的统计指标,构造候选人眼区域的属性集。运用粗糙集中的属性约简和规则生成算法,进行彩色图片中的人眼定位。实验表明该算法定位精度高,其结果为进一步的人脸识别预处理提供了准确的数据。 相似文献
3.
形式概念分析是形式背景的数据分析方法,已被引入推荐系统领域。概念格作为形式概念分析的有效工具,因其构造效率低下,所以难以应对电子商务中的大规模数据。为解决该问题,提出一种基于启发式概念构造的组推荐方法。首先,基于用户共同评分的项目,定义概念构造的启发式信息,实现概念的快速构造;同时利用内涵约束,在保证群组相似度的基础上,构造当前面积最大的概念,以包含更多的邻居用户;然后,在覆盖所有用户的概念集合上,统计项目在群组中的流行度,实现对群组用户的组推荐。在抽样数据集和MovieLens上,对比了该算法与两类不同的推荐算法。实验结果表明,在大规模数据下,该算法能在快速生成概念集合同时满足推荐需要。 相似文献
4.
5.
6.
针对传统岩性识别方法识别精度低,难以和地质经验有机结合的问题,提出了一种基于多种聚类算法和多元线性回归的多分类主动学习算法(ALCL)。首先,通过多种异构聚类算法聚类得到对应每种算法的类别矩阵,并通过查询公共点对类别矩阵进行标记和预分类;其次,提出优先级最大搜寻策略和最混乱查询策略选取用于训练聚类算法权重系数模型的关键实例;然后,定义目标求解函数,通过训练关键实例求解得到每种聚类算法的权重系数;最后,结合权重系数进行分类计算,从而对结果置信度高的样本进行分类。应用大庆油田油井的6个公开岩性数据集进行实验,实验结果表明,ALCL的分类精度最高时,比传统监督学习算法和其他主动学习算法提高了2.07%~14.01%。假设检验和显著性分析的结果验证了ALCL在岩性识别问题上具有更好的分类效果。 相似文献
7.
8.
针对模式匹配的准确性和灵活性问题,提出了一种基于弱通配符的匹配算法,以快速定位重要的时间点,辅助用户决策。首先通过数据预处理得到编码字符串序列,然后定义具有特殊语义的弱通配符及区间长度,最后设计一种高效的模式匹配算法。在时序分析中,模式反映了数据的变化趋势,预示着事件的发生。传统的精确匹配受噪声的影响比较大,匹配的灵活性低。通过添加弱通配符可以兼顾匹配过程的灵活性和准确性。油田产量与股票交易数据实验表明,所提方法较精确匹配而言,能够更有效地找到符合用户要求的模式。 相似文献
9.
半监督学习和集成学习是目前机器学习领域中的重要方法。半监督学习利用未标记样本,而集成学习综合多个弱学习器,以提高分类精度。针对名词型数据,本文提出一种融合聚类和集成学习的半监督分类方法SUCE。在不同的参数设置下,采用多个聚类算法生成大量的弱学习器;利用已有的类标签信息,对弱学习器进行评价和选择;通过集成弱学习器对测试集进行预分类,并将置信度高的样本放入训练集;利用扩展的训练集,使用ID3、Nave Bayes、 kNN、C4.5、OneR、Logistic等基础算法对其他样本进行分类。在UCI数据集上的实验结果表明,当训练样本较少时,本方法能稳定提高多数基础算法的准确性。 相似文献
10.
本文对基于共享备用容量的多层网络抗毁机制进行了研究,提出基于上层通路恢复的下层恢复策略和整数规划模型,这种方式可以有效地解决备用容量在上下层间的共事和动各移动问题,模型的实验数据证明了它的有效性。 相似文献