首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
常见的近红外光谱分析技术,一般将欧式距离作为相似性判据,但是在很多情况下并不能真实体现样本间的相似性;同时,线性回归模型无法克服校正样本集光谱数据中非线性以及样本差异大而导致的精度降低问题。针对上述问题,本文首次将光谱信息散度引入到局部建模算法中,以未知样本光谱与校正样本光谱间的光谱信息散度作为样本相似性判据,选取一定数量与待测样本最相似的校正样本组成局部校正子集,建立局部偏最小二乘模型。为了验证算法的有效性,将现有的全局建模算法、基于样本光谱间欧式距离的局部建模算法与本文提出的基于光谱信息散度的局部建模算法应用于猪肉近红外光谱标准数据集。实验结果表明:本文新方法的预测均方根误差(RMSEP)分别比现有的两种算法降低了22.8%与48.7%,克服猪肉近红外光谱的非线性和差异性,在近红外光谱定量分析领域具有良好的应用前景。  相似文献   

2.
任俊  胡晓峰  李宁 《计算机科学》2018,45(1):280-284, 312
为了解决大数据时代下小样本数据预测精度不高的问题,提出一种基于堆栈降噪自编码(SDA)与支持向量回归机(SVR)的混合模型。该方法采用源域大样本数据对堆栈降噪自编码和支持向量回归机混合模型进行迁移预训练,再利用目标域小样本数据微调混合模型。堆栈降噪自编码器具有良好的通用深层特征自主抽取能力,能够发掘源领域与目标领域相似任务间的共有特征知识,该知识能够辅助支持向量回归机在高维噪声小样本数据集上的预测。在多种数据集上的实验结果证明了该方法的有效性。  相似文献   

3.
稀疏子空间聚类的关键在于在求得真实反映数据集的相似度矩阵,然后将相似度矩阵代入谱聚类求解。相似度矩阵既要刻画数据集的子空间特性,同时也要反映出同一类数据点之间的两两相关程度,稀疏子空间聚类(SSC)专注于每一个数据表示系数的最大稀疏性,缺乏对数据集全局结构的描述;最小二乘回归(LSR)保证了同一类数据的结构相关性,但是不够稀疏。将最小二乘回归引入稀疏子空间聚类算法中,从而保证数据的相似度矩阵兼具稀疏性和分组效应。在运动分割和人脸聚类的实验中,将该算法和SSC、LSR算法对比,可以发现该算法在准确率上的优势。  相似文献   

4.
基于内存的协同过滤推荐系统存在数据稀疏和数据集异构的问题。为此,提出一种基于变权重相似度计算和自适应局部融合参数的协同过滤方法。通过统计数据集,提取用户-项目评分项的用户情感信息量计算用户相似度,同时根据用户-项目评分项的评分质量改进项目相似度计算方法,利用基于相似用户(或项目)的方法预测置信度,得到自适应局部融合参数,以增强协同过滤方法对数据集的适应能力。实验结果表明,相比传统全局融合参数方法,该方法在数据稀疏情况下的平均绝对误差降低了0.02,具有较高的推荐精度和推荐覆盖度,并且有效解决了数据稀疏和数据集异构问题。  相似文献   

5.
为了解决工业过程受本身结构特征、外界因素等影响而存在严重的非线性和时变性等问题,本文提出了一种基于输入输出综合性相似度指标的即时学习高斯过程软测量建模方法。在该方法中,将样本数据进行归一化处理,首先利用传统的基于距离和角度的相似度指标分别对样本输入输出变量进行相似度计算,进而对相似度进行综合,最后选择出最终的相关样本集,建立高斯过程回归软测量模型,将所提基于输入输出相似度指标的即时学习高斯工程软测量模型应用于城市日用电量数据的预测。研究结果表明,所提出的软测量建模方法可以实现对日用电量数据的高精度预测且预测结果具有较小的误差。因此可表明该方法可在电量预测中具有一定的应用可靠性,可以在电力市场预测分析中得到广泛的应用。  相似文献   

6.
采用单苯环氯取代指数作为氯代二苯并二口恶口英类化合物 (PCDDs)的分子结构描述符 ,通过正向逐步线性回归方法建立了PCDDs的logKow与分子结构描述符之间的定量关系模型。与文献报道的MOD模型相比 ,该模型不仅具有显著的相关性 (n =43,Radj=0 898,SE =0 195 ,在α =0 0 5时 ,F =2 0 45 5 ,p =0 0 0 0 0 ) ,而且对于分子结构具有更好的区分能力。利用建立的模型 ,对没有logKow文献值的其他 33种PCDDs化合物给出了预测值  相似文献   

7.
任炜  白鹤翔 《计算机应用》2022,42(5):1383-1390
针对多标签图像分类任务中存在的难以对标签间的相互作用建模和全局标签关系固化的问题,结合自注意力机制和知识蒸馏(KD)方法,提出了一种基于全局与局部标签关系的多标签图像分类方法(ML-GLLR)。首先,局部标签关系(LLR)模型使用卷积神经网络(CNN)、语义模块和双层自注意力(DLSA)模块对局部标签关系建模;然后,利用KD方法使LLR学习全局标签关系。在公开数据集MSCOCO2014和VOC2007上进行实验,LLR相较于基于图卷积神经网络多标签图像分类(ML-GCN)方法,在平均精度均值(mAP)上分别提高了0.8个百分点和0.6个百分点,ML-GLLR相较于LLR在mAP上分别进一步提高了0.2个百分点和1.3个百分点。实验结果表明,所提ML-GLLR不仅能对标签间的相互关系进行建模,也能避免全局标签关系固化的问题。  相似文献   

8.
针对最小二乘支持向量机处理大规模数据集耗时长且受内存限制的特点,将局部多模型方法与MapReduce编程模式相结合,提出一种并行最小二乘支持向量机回归模型.模型由两组MapReduce过程组成,首先按照输入样本集对样本数据进行聚类操作,再对聚类后得到的子类按输出样本集进行二次聚类操作,分别得到局部模型数目和各局部模型综合加权输出计算结果.实验结果表明,并行最小二乘支持向量机回归模型具有较好的加速比和可扩展性.  相似文献   

9.
针对传统协同过滤算法中评分数据稀疏性及所造成推荐质量不高的问题,提出一种巴氏系数(Bhattacharyya Coefficient)改进相似度的协同过滤算法。在基于近邻协同过滤算法基础上,首先利用Jaccard相似性来计算用户间的全局相似性;其次使用巴氏系数获得评分分布的整体规律,并结合Pearson相关系数来计算其局部相似性;最后融合全局相似性和局部相似性得到最终的相似度矩阵。实验结果表明,该算法在稀疏数据集上获得更好的推荐结果,有效地缓解了评分数据稀疏性问题,提高了推荐的准确度。  相似文献   

10.
【目的】为了管理化学物质的使用,需要用已知化合物的毒性来预测未知化合物的毒性。【方法】采用定量构效关系(QSAR)方法预测一系列环境化合物对大型蚤类的毒害(50%Lethal Concentration,LC_(50)),确定影响毒性关键分子结构的特征比较几种模拟方法的优劣。将323个有机物分子作为数据集,随机选取其中81个分子作为测试集,其余为训练集,每个分子计算了196个参数。【结果】分别采用逐步多元线性回归分析法(R_(tr)~2=0.661,R_(te)~2=0.612)、主成分回归法(R_(tr)~2=0.590,R_(te)~2=0.577)和偏最小二乘法(R_(tr)~2=0.788,R_(te)~2=0.607)构建QSAR模型。这3种模型都表明分子量参数(M_W)对化合物的毒性影响较大。【结论】借助优质的QSAR模型方法预测和比较该类化合物的毒性情况,对水环境监测具有重要意义。  相似文献   

11.
Accurate protein secondary structure prediction (PSSP) is essential to identify structural classes, protein folds, and its tertiary structure. To identify the secondary structure, experimental methods exhibit higher precision with the trade-off of high cost and time. In this study, we propose an effective prediction model which consists of hybrid features of 42-dimensions with the combination of convolutional neural network (CNN) and bidirectional recurrent neural network (BRNN). The proposed model is accessed on four benchmark datasets such as CB6133, CB513, CASP10, and CAP11 using Q3, Q8, and segment overlap (Sov) metrics. The proposed model reported Q3 accuracy of 85.4%, 85.4%, 83.7%, 81.5%, and Q8 accuracy 75.8%, 73.5%, 72.2%, and 70% on CB6133, CB513, CASP10, and CAP11 datasets respectively. The results of the proposed model are improved by a minimum factor of 2.5% and 2.1% in Q3 and Q8 accuracy respectively, as compared to the popular existing models on CB513 dataset. Further, the quality of the Q3 results is validated by structural class prediction and compared with PSI-PRED. The experiment showed that the quality of the Q3 results of the proposed model is higher than that of PSI-PRED.  相似文献   

12.
刘苗苗  扈庆翠  郭景峰  陈晶 《计算机应用研究》2021,38(7):2003-2008,2017
鉴于大多数符号网络预测算法仅能对已有链接缺失的符号进行预测,无法实现未知的链接及其符号预测,提出一种融合局部与全局结构特征定义节点间相似性的符号网络链接预测算法.基于结构平衡理论,利用连接两节点的步长为2和3的路径信息分别定义局部和全局链接紧密度,有效融合两者得到两节点的总相似度,其绝对值度量了链接建立的可能性,其符号即为链接的符号预测结果.在多个经典的符号网络数据集上对算法的有效性和正确性进行了验证,并与符号网络中有代表性的预测算法进行了准确率以及推荐链接的对比分析.结果显示,所提算法在链接预测与符号预测两方面均达到了较好的预测性能.  相似文献   

13.
为改进基于局部或全局信息相似性度量方法中存在的无法全面提取网络结构信息的问题,以及基于网络表示学习的方法不能对链接的不存在性进行度量的问题,提出一种结合节点向量化方法与机器学习分类算法的Net2Vec-CLP框架。使用具有重启机制的随机游走方法获得节点环境序列,将源网络信息转换成向量表示,在此基础上生成标签数据集,使用带sigmoid核映射方法的SVM模型进行二分类预测。实验结果表明,算法在Facebook数据集上较Node2Vec方法 AUC值提高了2.47%,在其它数据集上也有可观测的优势。同时,结合二分类思想的方法,其能明确度量不存在链接关系的数据。  相似文献   

14.
15.
To cleanse mislabeled examples from a training dataset for efficient and effective induction, most existing approaches adopt a major set oriented scheme: the training dataset is separated into two parts (a major set and a minor set). The classifiers learned from the major set are used to identify noise in the minor set. The obvious drawbacks of such a scheme are twofold: (1) when the underlying data volume keeps growing, it would be either physically impossible or time consuming to load the major set into the memory for inductive learning; and (2) for multiple or distributed datasets, it can be either technically infeasible or factitiously forbidden to download data from other sites (for security or privacy reasons). Therefore, these approaches have severe limitations in conducting effective global data cleansing from large, distributed datasets.In this paper, we propose a solution to bridge the local and global analysis for noise cleansing. More specifically, the proposed effort tries to identify and eliminate mislabeled data items from large or distributed datasets through local analysis and global incorporation. For this purpose, we make use of distributed datasets or partition a large dataset into subsets, each of which is regarded as a local subset and is small enough to be processed by an induction algorithm at one time to construct a local model for noise identification. We construct good rules from each subset, and use the good rules to evaluate the whole dataset. For a given instance I k , two error count variables are used to count the number of times it has been identified as noise by all data subsets. The instance with higher error values will have a higher probability of being a mislabeled example. Two threshold schemes, majority and non-objection, are used to identify and eliminate the noisy examples. Experimental results and comparative studies on both real-world and synthetic datasets are reported to evaluate the effectiveness and efficiency of the proposed approach.A preliminary version of this paper was published in the Proceedings of the 20th International Conference on Machine Learning, Washington D.C., USA, 2003, pp. 920–927.  相似文献   

16.
针对在最小二乘支持向量机(LSSVM)的核函数参数和正则化参数优化中回溯搜索优化算法(BSA)易早熟、局部开采能力弱等问题,提出了一种集成预测模型CABSA-LSSVM。首先采用柯西种群生成策略增加历史种群的多样性使算法不易陷入局部最优解,然后利用自适应变异因子策略调节变异尺度系数以平衡算法的全局勘探和局部开采能力,最后运用改进后的柯西自适应回溯搜索算法(CABSA)优化LSSVM以形成新的集成预测模型。选取10个UCI数据集进行数值实验,结果表明所提模型CABSA-LSSVM在种群规模为80时回归预测性能最优,且与标准BSA、粒子群优化(PSO)算法、人工蜂群(ABC)算法、灰狼优化(GWO)算法优化的LSSVM相比,该模型的决定系数提升了1.21%~15.28%,预测误差降低了6.36%~29.00%,运行时间降低了5.88%~94.16%,可见该模型具有较高的预测精度和较快的计算速度。  相似文献   

17.
Anticipating future actions without observing any partial videos of future actions plays an important role in action prediction and is also a challenging task. To obtain abundant information for action anticipation, some methods integrate multimodal contexts, including scene object labels. However, extensively labelling each frame in video datasets requires considerable effort. In this paper, we develop a weakly supervised method that integrates global motion and local fine-grained features from current action videos to predict next action label without the need for specific scene context labels. Specifically, we extract diverse types of local features with weakly supervised learning, including object appearance and human pose representations without ground truth. Moreover, we construct a graph convolutional network for exploiting the inherent relationships of humans and objects under present incidents. We evaluate the proposed model on two datasets, the MPII-Cooking dataset and the EPIC-Kitchens dataset, and we demonstrate the generalizability and effectiveness of our approach for action anticipation.  相似文献   

18.
简艺恒  余啸 《计算机应用》2018,38(9):2637-2643
预测软件缺陷的数目有助于软件测试人员更多地关注缺陷数量多的模块,从而合理地分配有限的测试资源。针对软件缺陷数据集不平衡的问题,提出了一种基于数据过采样和集成学习的软件缺陷数目预测方法——SMOTENDEL。首先,对原始软件缺陷数据集进行n次过采样,得到n个平衡的数据集;然后基于这n个平衡的数据集利用回归算法训练出n个个体软件缺陷数目预测模型;最后对这n个个体模型进行结合得到一个组合软件缺陷数目预测模型,利用该组合预测模型对新的软件模块的缺陷数目进行预测。实验结果表明SMOTENDEL相比原始的预测方法在性能上有较大提升,当分别利用决策树回归(DTR)、贝叶斯岭回归(BRR)和线性回归(LR)作为个体预测模型时,提升率分别为7.68%、3.31%和3.38%。  相似文献   

19.
Existing thermal comfort prediction approaches by machine learning models have been achieving great success based on large datasets in sustainable Industry 4.0 environment. However, the industrial Internet of Things (IoT) environment generates small-scale datasets where each dataset may contain lots of worker’s private data. The latter is challenging the current prediction approaches as small datasets running a large number of iterations can result in overfitting. Moreover, worker’s privacy has been a public concern throughout recent years. Therefore, there must be a trade-off between developing accurate thermal comfort prediction models and worker’s privacy-preserving. To tackle this challenge, we present a privacy-preserving machine learning technique, federated learning (FL), where an FL-based neural network algorithm (Fed-NN) is proposed for thermal comfort prediction. Fed-NN departs from current centralized machine learning approaches where a universal learning model is updated through a secured parameter aggregation process in place of sharing raw data among different industrial IoT environments. Besides, we designed a branch selection protocol to solve the problem of communication overhead in federating learning. Experimental studies on a real dataset reveal the robustness, accuracy, and stability of our algorithm in comparison to other machine learning algorithms while taking privacy into consideration.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号