首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
首先,根据餐饮业网络评论文本对消费者情感极性进行预测,建立了Lasso-Logistic和Lasso-PCA两个预测模型.相比之下,Lasso-PCA模型整合了更多的变量信息,对文本的情感极性具有更好的预测效果;但是Lasso-PCA模型对变量的解释能力较弱,尤其在解释变量维度较高的情况下,Lasso-PCA模型很难分析出解释变量对被解释变量的影响.其次,对Lasso-Logistic模型的变量选择结果进一步分析发现,特色菜、服务态度和环境以及“美中不足”之处是影响消费者情感极性的显著因素.  相似文献   

2.
情感分类是通过分析数据中的情感信息,来预测数据所传递的情感倾向.其中结合语言学词典与产生式分类器构造带有先验知识的分类模型,是一类重要的研究课题.通过研究情感词的领域性和不同权重的特性,提出了一种新的融入情感先验知识的情感分类方法.通过自动分析构造领域相关的情感词及其权重信息,将其作为情感先验知识,融入到产生式分类模型...  相似文献   

3.
娱乐新闻是腾讯新闻重要组成部分,根据娱乐文章的文本信息将文章归类是娱乐新闻处理工作中很重要的一部分。人工智能中的机器学习方法在经济生活中有着十分广泛的应用。根据娱乐新闻分类这一问题实例,分别采用了传统的机器学习方法,包括朴素贝叶斯,逻辑回归,基于集成学习的方法lightGBM,对这一分类问题进行探索。最后采用异质集成学习方法对最终结果进行集成。不同的模型在不同的问题中具有不同的效果,本文依据娱乐新闻分类这一具体问题,采用了上述几种算法模型进行预测,综合了不同模型的预测情况得出最后的预测结果。对算法模型进行了原理分析,比较了不同的分类模型解决该问题的效果,横向对比了不同模型的优缺点,并对造成结果差异的原因进行了总结。  相似文献   

4.
刘颖  林元烈  覃征 《计算机应用》2005,25(9):2169-2170
生物序列分析是机器学习和数据挖掘技术一个重要的应用领域。它的特别之处在于,很多有领域背景的先验知识可以在分析过程中得到利用,从而改善分析的效果。在对蛋白质的乙酰化修饰的预测过程中,通过合理地利用先验信息,改进模式提取方法,能够显著地提高支持向量机模型的预测性能。  相似文献   

5.
近年来,机器学习技术飞速发展,并在自然语言处理、图像识别、搜索推荐等领域得到了广泛的应用。然而,现有大量开放部署的机器学习模型在模型安全与数据隐私方面面临着严峻的挑战。本文重点研究黑盒机器学习模型面临的成员推断攻击问题,即给定一条数据记录以及某个机器学习模型的黑盒预测接口,判断此条数据记录是否属于给定模型的训练数据集。为此,本文设计并实现了一种基于变分自编码器的数据合成算法,用于生成与给定模型的原始训练数据分布相近的合成数据;并在此基础上提出了基于生成对抗网络的模拟模型构建算法,利用合成数据训练得到与给定模型具有相似预测能力的机器学习模型。相较于现有的成员推断攻击工作,本文所提出的推断攻击无需目标模型及其训练数据的先验知识,在仅有目标模型黑盒预测接口的条件下,可获得更加准确的攻击结果。通过本地模型和线上机器学习即服务平台BigML的实验结果证明,所提的数据合成算法可以得到高质量的合成数据,模拟模型构建算法可以在更加严苛的条件下模拟给定模型的预测能力。在没有目标模型及其训练数据的先验知识条件下,本文所提的成员推断攻击在针对多种目标模型进行攻击时,推断准确率最高可达74%,推断精确率可达86%;与现有最佳攻击方法相比,将推断准确率与精确率分别提升10.7%及11.2%。  相似文献   

6.
机器学习被广泛应用于各个领域, 已成为推动各行业革命的强大动力, 极大促进了人工智能的繁荣与发展。同时, 机器学习模型的训练和预测均需要大量数据, 而这些数据可能包含隐私信息, 导致其隐私安全面临严峻挑战。成员推理攻击主要通过推测一个数据样本是否被用于训练目标模型来破坏数据隐私, 其不仅可以破坏多种机器学习模型(如, 分类模型和生成模型)的数据隐私, 而且其隐私泄露也渗透到图像分类、语音识别、自然语言处理、计算机视觉等领域, 这对机器学习的长远发展产生了极大的安全威胁。因此, 为了提高机器学习模型对成员推理攻击的安全性, 本文从机器学习隐私安全攻防角度, 全面系统性分析和总结了成员推理攻击和防御的基本原理和特点。首先, 介绍了成员推理攻击的定义、威胁模型, 并从攻击原理、攻击场景、背景知识、攻击的目标模型、攻击领域、攻击数据集大小六个方面对成员推理攻击进行分类, 比较不同攻击的优缺点; 然后, 从目标模型的训练数据、模型类型以及模型的过拟合程度三个角度分析成员推理攻击存在原因, 并从差分隐私、正则化、数据增强、模型堆叠、早停、信任分数掩蔽和知识蒸馏七个层面对比分析不同防御措施; 接着, 归纳总结了成员推理攻击和防御常用的评估指标和数据集, 以及其在其他方面的应用。最后, 通过对比分析已有成员推理攻击和防御的优缺点, 对其面临的挑战和未来研究方向进行了展望。  相似文献   

7.
彭葛桦 《自动化仪表》2023,(12):65-69+74
为了更好地解决电网多源故障时的用电信息采集和处理问题,针对基于数据驱动的电网多源故障用电信息采集智能融合技术展开研究。该技术的在线运行机制基于先验知识和深度玻尔兹曼机(DBM)模型实现。在分类处理多源用电信息后,获取其中的动态数据和静态数据。通过数据驱动提取不同类别用电数据的特征集,利用卡尔曼滤波算法去除特征集中的冗余特征,完成对用电信息的一致性特征描述,从而获得用电信息融合结果。测试结果表明:该技术具有较好的应用性能;戴维森堡丁指数(DBI)的测试结果均在0.017以下,能够有效分类动态数据和静态数据,并处理数据中的异常数据;变异系数结果均在0.02以下。利用该技术所得的用电信息融合结果,能够可靠地预测用电需求、识别异常用电行为。该技术应用效果良好。  相似文献   

8.
针对机器学习模型训练过程中攻击者可以利用修改原始训练数据生成投毒数据的方式对机器学习模型进行投毒攻击的问题,提出一种基于数据复杂度的投毒数据检测方法。该方法在正常数据集的基础上,应用梯度上升策略对正常数据集内的样本实例进行自我投毒,通过挖掘自我投毒产生的投毒数据对正常数据集数据复杂度的影响,训练能够辨别投毒数据的检测模型。该方法在选定的应用场景中的检测准确率比现有方法有更好的效果。实验结果表明,投毒数据能够有效降低机器学习模型预测能力,应用基于数据复杂度的检测方法能够有效检测投毒数据,降低投毒数据对模型预测能力的不良影响。  相似文献   

9.
刘伯鸿  孙浩洋 《测控技术》2020,39(10):32-36
针对轨道电路不均衡的故障历史文本数据,提出了一种针对非均衡历史文本数据挖掘的轨道电路智能分类模型。选取TF-IDF和先验LDA无监督机器学习模型对历史故障文本数据分别进行词项级和主题级故障特征提取并向量化,将提取的历史数据特征向量串行融合,得到其特征向量空间。采用SMOTE算法自动生成历史文本数据中的少数类数据,避免在机器学习过程中出现欠拟合现象。鉴于单个分类器在机器学习及智能分类的精度不高,采用投票的方式实现基分类器与集成分类器的集成学习。选择广铁集团电务段2011年的故障文本数据进行试验分析,验证该模型在历史故障数据分类的准确率和召回率等方面的优势。  相似文献   

10.
针对电信企业客户流失问题,提出采用贝叶斯决策树算法的预测模型,将贝叶斯分类的先验信息方法与决策树分类的信息熵增益方法相结合,应用到电信行业客户流失分析中,分别将移动公司的客户数据以及UCI数据纳入到模型中得出相应的结果。加入贝叶斯节点弥补决策树不能处理缺失值以及二义性数据的缺点。检验结果表明,基于贝叶斯推理的决策树算法在牺牲了较小的训练时间与分类时间的情况下,得到了比仅基于决策树算法更高的覆盖率与命中率。  相似文献   

11.
时间序列预测方法综述   总被引:1,自引:0,他引:1  
时间序列是按照时间排序的一组随机变量,它通常是在相等间隔的时间段内依照给定的采样率对某种潜在过程进行观测的结果。时间序列数据本质上反映的是某个或者某些随机变量随时间不断变化的趋势,而时间序列预测方法的核心就是从数据中挖掘出这种规律,并利用其对将来的数据做出估计。针对时间序列预测方法,着重介绍了传统的时间序列预测方法、基于机器学习的时间序列预测方法和基于参数模型的在线时间序列预测方法,并对未来的研究方向进行了进一步的展望。  相似文献   

12.
针对电厂球磨机负荷难以进行有效预测的问题,从提高预测模型在线自适应能力的角度出发,提出一种基于即时学习策略的改进SVM建模方法。利用灰色关联分析方法对过程参数进行优化筛选,获得辅助变量;在即时学习策略建模框架下,采用多种群混合优化算法进行SVM预测模型参数的优化选取;基于电厂实际运行数据进行了仿真研究。仿真实验表明,与标准BP神经网络和SVM建模方法的比较,该算法具有更好的预测性能,虽然计算开销有所增加,但能够满足制粉系统球磨机负荷检测的实时性要求。  相似文献   

13.
将极限学习机算法与旋转森林算法相结合,提出了以ELM算法为基分类器并以旋转森林算法为框架的RF-ELM集成学习模型。在8个数据集上进行了3组预测实验,根据实验结果讨论了ELM算法中隐含层神经元个数对预测结果的影响以及单个ELM模型预测结果不稳定的缺陷;将RF-ELM模型与单ELM模型和基于Bagging算法集成的ELM模型相比较,由稳定性和预测精度的两组对比实验的实验结果表明,对ELM的集成学习可以有效地提高ELM模型的性能,且RF-ELM模型较其他两个模型具有更好的稳定性和更高的准确率,验证了RF-ELM是一种有效的ELM集成学习模型。  相似文献   

14.
The analysis of travel mode choice is an important task in transportation planning and policy making in order to understand and predict travel demands. While advances in machine learning have led to numerous powerful classifiers, their usefulness for modeling travel mode choice remains largely unexplored. Using extensive Dutch travel diary data from the years 2010 to 2012, enriched with variables on the built and natural environment as well as on weather conditions, this study compares the predictive performance of seven selected machine learning classifiers for travel mode choice analysis and makes recommendations for model selection. In addition, it addresses the importance of different variables and how they relate to different travel modes. The results show that random forest performs significantly better than any other of the investigated classifiers, including the commonly used multinomial logit model. While trip distance is found to be the most important variable, the importance of the other variables varies with classifiers and travel modes. The importance of the meteorological variables is highest for support vector machine, while temperature is particularly important for predicting bicycle and public transport trips. The results suggest that the analysis of variable importance with respect to the different classifiers and travel modes is essential for a better understanding and effective modeling of people’s travel behavior.  相似文献   

15.
Representing causality in machine learning to predict control parameters is state-of-the-art research in intelligent control. This study presents a physics-based machine learning method providing a prediction model that guarantees enhanced interpretability conforming to physical laws. The proposed approach encodes physical knowledge as mapping relationships between variables in engineering dataset into the learning procedure through dimensional analysis. This derives causal relationships between the control parameter and its influencing factors. The proposed machine learning method's objective function is further improved by the penalty term in the regularization strategy. Verifications on the energy consumption prediction of tunnel boring machine prove that, the established model accords with basic principles in this field. Moreover, the proposed approach traces the impact of three major factors (structure, operation, and geology) along the construction section, offering each component's contribution rates to energy consumption. Compared with several commonly used machine learning algorithms, the proposed method reduces the need for large amounts of training data and demonstrates higher accuracy. The results indicate that the revealed causality and enhanced prediction performance of the proposed method advance the applicability of machine learning methods to intelligent control during construction.  相似文献   

16.
基于并联CNN-SE-Bi-LSTM的轴承剩余使用寿命预测   总被引:1,自引:0,他引:1  
滚动轴承作为一种机械标准件,广泛应用于各类旋转机械设备,其健康状况对机器设备的正常运行至关重要,掌握其剩余使用寿命(RUL)可以更好地保证生产活动安全有效的进行.针对目前基于深度学习的机器RUL预测方法普遍存在:a)预测性能很大程度依赖手工特征设计;b)模型不能够充分提取数据中的有用特征;c)学习过程中没有明确考虑多传感器数据等缺点,提出了一种新的深度预测网络——并联多个带有压缩激励机制的卷积神经网络和双向长短期记忆网络集成网络(CNN-SE-Bi-LSTM),用于设备的RUL预测.在该预测网络中,不同传感器采集的监测数据直接作为预测网络的输入.然后,在改进的压缩激励卷积网络(CNN-SE-Net)提取空间特征的基础上进一步通过双向长短期记忆网络(Bi-LSTM)提取时序特征,建立起多个独立的可以自动从输入数据中学习高级表示的RU L预测模型分支.最后,将各独立分支学习到的特征通过全连接层并联获得最终的RU L预测模型.通过滚动轴承加速退化实验的数据,验证了所提网络的有效性并与现有的一些改进算法进行了对比实验.结果表明,面对原始多传感器数据,该算法能够自适应地提供准确的RU L预测结果,且预测表现优于现有一些预测方法.  相似文献   

17.
在钻井过程中, 钻速是指机械钻头破岩加深钻口的速度, 是反映钻井效率的一个重要指标. 近年来机器学习方法被应用于机械钻速预测, 然而实践中发现这些方法应用于新油田时, 预测精度显著下降, 主要原因是新油田可供学习训练的数据通常很少甚至完全缺失. 因此提升针对新油田的机械钻速预测性能是一个有待解决的问题. 针对该问题, 本文提出了一种基于迁移学习的跨油田机械钻速预测方法, 构建了一种带物理约束的集成迁移回归模型预测新油田的机械钻速. 在真实钻井数据集上的实验表明, 本文提出的机械钻速预测方法是有效的, 预测精度也显著优于目前主流的同类方法.  相似文献   

18.
股指预测是金融领域中一个重要课题. 随着计算能力和技术的发展, 从在线新闻中识别和量化有价值的信息为提高股指预测表现创造了机会. 本文为将关于股票指数预测框架的计量经济学文献扩展到高维文本数据提出了一种基于生成语言模型的股票指数预测框架. 该预测框架可以分为两个步骤. 首先, 使用有监督生成语言模型快速过滤噪声词语, 并将剩余文本聚合成可以充分解释股指变动的新闻指数. 其次, 将该新闻指数和历史股指数据共同作为时变参数预测模型的自变量来预测股指未来价值. 该框架不仅丰富了股票指数预测的影响因素并且揭示了这些因素与股票指数价值之间的时变动态关系. 实证研究展示了该预测框架解释能力和样本外预测能力. 在预测的6个行业股指中, 本文提出的预测框架得到的均方误差普遍小于传统时间序列和机器学习方法. 与没有考虑新闻信息的时变参数预测模型和长短期记忆网络相比该预测框架也表现了更好的预测性能.  相似文献   

19.
高性能集群的作业调度通常使用作业调度系统来实现,准确填写作业运行时间能在很大程度上提升作业调度效率。现有的研究通常使用机器学习的预测方式,在预测精度和实用性上还存在一定的提升空间。为了进一步提高集群作业运行时间预测的准确率,考虑先对集群作业日志进行聚类,将作业类别信息添加到作业特征中,再使用基于注意力机制的NR-Transformer网络对作业日志数据建模和预测。在数据处理上,根据与预测目标的相关性、特征的完整性和数据的有效性,从历史日志数据集中筛选出7维特征,并按作业运行时间的长度将其划分为多个作业集,再对各作业集分别进行训练和预测。实验结果表明,相比于传统机器学习和BP神经网络,时序神经网络结构有更好的预测性能,其中NR-Transformer在各作业集上都有较好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号