首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
为提高交通流预测模型的准确性及泛化性,提出一种基于模糊分析的LSTM交通流预测方法实现对交通状态的预估分析.对历史数据采用LSTM神经网络进行训练,获取神经网络权值参数,针对交通流时序数据存在周期性,提出基于模糊聚类分析的策略对LSTM模型的历史训练误差进行聚类.根据当前交通流数据与历史数据的相似度预估LSTM预测模型的在线误差.综合LSTM神经网络预测输出以及基于相似度分析的在线误差预测输出预估交通流状态,给出相应的算法步骤.仿真实验验证了提出方法的有效性,其比单一预测预测模型效果更好.  相似文献   

2.
数据缺失对聚类算法提出了挑战,传统方法往往采用均值或回归方法将不完整数据进行填充,再对填充后的数据进行聚类.为解决均值填充和回归填充等方法在数据缺失比率增大时填充精度以及聚类效果变差的问题,提出一种新的不完整数据相似度计算方法.以期望互信息为依据对数据集中的属性排序,充分考虑了数据集中与位置相关的属性值特征,以数据集本身元素作为缺失值填充的来源,对排序后的不完整数据集进行相似度填充计算,最后采用基于局部密度的聚类算法进行聚类.利用UCI机器学习库中的数据集验证本文填充聚类算法,实验结果表明,当数据集中缺失值增多时,算法对缺失值的容忍性较好,对缺失元素的恢复能力较强,填充精度以及最终聚类结果方面均表现良好.本文填充计算相似度的方法考虑数据集的每个属性值来对缺失值逐个填充,因而耗时较多.  相似文献   

3.
在分析现有交通状态辨识理论的局限性的基础上,提出了一种新的交通状态辨识模型。此模型针对每种交通状态样本数据都具有一定的相似性,不同状态之间的样本具有相异性的性质,采用数据挖掘方法中的聚类算法对不同状态的交通流数据进行聚类。所提出的模型避免了目前模型中只采用单个交通流参数进行状态识别的缺点,为交通状态的辨识提供了一种新的思路。  相似文献   

4.
在分析现有交通状态辨识理论的局限性的基础上,提出了一种新的交通状态辨识模型。此模型针对每种交通状态样本数据都具有一定的相似性,不同状态之间的样本具有相异性的性质,采用数据挖掘方法中的聚类算法对不同状态的交通流数据进行聚类。所提出的模型避免了目前模型中只采用单个交通流参数进行状态识别的缺点,为交通状态的辨识提供了一种新的思路。  相似文献   

5.
基于模糊神经网络的短时交通流预测方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
为满足交通控制和诱导系统的实时性需求,减少交通拥挤状况,降低交通事故突发频率,需要对短时交通流进行预测;当前的短时交通流预测方法是采用K-近邻的非参数回归对其进行预测,预测过程中没有将预测模型中关键因素对交通流的影响进行详细的说明,导致预测结果不准确,存在短时交通流预测误差较大的问题;为此,提出一种基于模糊神经网络的短时交通流预测方法;该方法首先以历史短时交通流数据样本序列为基础,将提取的关联维数作为短时交通流的混沌特征量,然后以该特征量为依据,对短时交通流数据进行聚类,使相同的短时交通流聚合类样本比不同的交通流聚合类样本更为贴近,采用高斯过程回归对短时交通流预测模型进行建设,建设过程中利用差分方法对短时交通流预测序列进行平稳化操作之后,对短时交通流预测模型进行训练,将GPR模型引入至短时交通流预测过程中,得到交通流预测方差估计值,并确定交通流预测值置信区间,由此实现短时交通流的预测;由此实现短时交通流的预测;实验结果证明,所提方法可以准确地预测交通运输系统的实时状况,为车辆行驶的最佳路线进行了有效引导,减少了自然影响方面和人为因素对短时交通流预测结果的干扰,为交通部门对交通路况的控制管理提供了依据。  相似文献   

6.
基于云模型的动态交通数据流软划分算法   总被引:3,自引:1,他引:2  
提出了一种交通数据流软划分算法,该算法利用STREAM算法对交通数据流进行了聚类分析,得到了能够反映交通状况不同特征的聚类结果,然后对聚类结果进行了数据挖掘和交通数据流趋势预测。最后在数据流值预测结果的基础上,采用基于云模型划分的算法对交通的预测流值进行分析,得到了更加灵活的控制策略。  相似文献   

7.
徐枫 《信息与电脑》2011,(8):219-220
分类是数据挖掘的重要组成部分,分类可用于提取描述重要数据类的模型或预测未来的数据趋势,在众多的分类算法中决策树方法在可理解度和易使用等方面优于其他的分类方法。本文以高职院校学生信息与专业选择之间的关系分析为例,完整地给出了决策树分类ID3算法的理论基础和实践的全过程,实验结果表明了决策树分类ID3算法在学生信息分析中的有效性。  相似文献   

8.
针对目前基于聚类方法的交通流预测模型,在聚类时,未考虑到不同因素对交通流影响程度不同的问题,引入因果分析方法来量化各因素的重要程度,同时提出一种预测框架,基于因果分析的套索回归(LASSO)和极限学习机(ELM)组合预测模型.采用占用率和车速两种因素,引入符号转移熵分别对各因素与交通流进行因果分析;根据分析结果为每种因素加权,利用K-Means算法对数据进行聚类;通过LASSO捕捉线性关系,ELM学习非线性关系,为每一类交通流建立特有的预测模型.通过对洛杉矶地区的实验,验证了组合模型对预测精度的提升具有很大帮助,在引入因果分析后,预测精度得到了更进一步提升.  相似文献   

9.
基于遗传算法及聚类的基因表达数据特征选择   总被引:1,自引:0,他引:1  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出了一种新的面向基因表达数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用聚类算法及聚类错误率作为学习算法及评价指标。实验结果表明,该算法可有效地找出具有较好可分离性的特征子集,从而实现降维并提高聚类及分类精度。  相似文献   

10.
决策树算法的一种改进算法   总被引:2,自引:0,他引:2  
决策树是归纳学习和数据挖掘的重要方法,主要用于分类和预测.ID3算法是决策树中应用最广泛的算法,通过对数据挖掘中决策树的基本思想进行阐述,讨论了ID3算法倾向于取值较多属性的缺点,引入无关度对ID3算法作了改进.实验数据结果分析表明,改进后的算法能得到更合理、更有效的规则.  相似文献   

11.
交通流量数据的分类规则挖掘   总被引:2,自引:0,他引:2  
巩帅 《计算机工程与应用》2006,42(6):219-220,232
概述了数据挖掘的分类算法,并简要介绍了C5.0决策树算法。以北京市“三横两纵”主干道交通流量数据为例,采用C5.0决策树算法提取交通流量的分类规则,用于分析交通流量规律、信息模式和数据趋势,并对分类树进行量化,为交通信号设计、路网规划、道路设计、路网节点设计等提供决策支持。  相似文献   

12.
This paper proposes a scalable, local privacy-preserving algorithm for distributed Peer-to-Peer (P2P) data aggregation useful for many advanced data mining/analysis tasks such as average/sum computation, decision tree induction, feature selection, and more. Unlike most multi-party privacy-preserving data mining algorithms, this approach works in an asynchronous manner through local interactions and it is highly scalable. It particularly deals with the distributed computation of the sum of a set of numbers stored at different peers in a P2P network in the context of a P2P web mining application. The proposed optimization-based privacy-preserving technique for computing the sum allows different peers to specify different privacy requirements without having to adhere to a global set of parameters for the chosen privacy model. Since distributed sum computation is a frequently used primitive, the proposed approach is likely to have significant impact on many data mining tasks such as multi-party privacy-preserving clustering, frequent itemset mining, and statistical aggregate computation.  相似文献   

13.
在大数据时代,在城市复杂交通环境中,实现实时、准确的交通流预测,是实现智能交通系统的必要前提。提出了一种在Spark平台上基于梯度优化决策树的分布式城市交通流预测模型(distributed urban traffic prediction with GBDT,DUTP-GBDT);并提出了分布式情况下梯度优化决策树模型实现的优化方法,包括切分点抽样、特征装箱和逐层训练三种,提高了分布式情况下梯度优化决策树训练效率。基于Spark分布式计算平台高效、可靠、弹性可扩展的优势,以及梯度优化决策树模型准确率较高和时间复杂度较低的优点,利用时间特征、道路状况特征以及天气特征等特征参数,建立了DUTP-GBDT模型,实现了实时、准确的交通流预测。通过与GABP、GA-KNN、MSTAR等模型的对比,证明了利用Spark平台,DUTP-GBDT模型在分布式环境下准确率和训练速度方面均有所提高,符合城市交通流预测系统的各项要求。  相似文献   

14.
决策规划是无人驾驶技术中的重要环节.由于道路结构变化或障碍物引起的车辆被动换道多采用基于逻辑规则或优化算法的决策方式.本文以通行量为优化目标,提出一种基于分类回归树(Classification and regression tree,CART)的汇流决策方法.依据交通流参数,选择大量具有代表性的车辆汇流场景.对场景中车辆的汇流决策序列进行编码,采用遗传算法搜索使得通行量最大的决策方案.将寻优获得的大量汇流决策序列作为样本,训练分类回归树.选取车辆自身信息及与周围车辆的关系等以描述环境特征,运用分类回归树描述环境特征与决策结果的映射关系,获得一种通行量最优的汇流决策方法.在软件中进行仿真实验,对比既有方法,基于分类回归树的汇流方法能够有效减少汇流行为对车流的扰动,在大流量情形下依旧能保持较高的通行效率.此外,该方法对实际实施中可能存在的环境感知误差,如定位误差,有一定的鲁棒性.  相似文献   

15.
利用网络连接数据可以按照连接的基本特征、内容特征、网络流量特征和主机流量特征进行分组的特点,基于K-means算法,提出一种按照特征分组进行聚类的方法,以高效实现特征约简和数据降维.通过调整聚类参数保留特征分组内的差异信息,使用决策树C4.5算法对降维后的数据进行入侵分类处理.实验结果表明,该方法能够使kddcup99数据集的聚类特征数由41个降为4个,且对网络连接数据的总检测率为99.73%,误检率为0,其中正常网络连接和刺探攻击Probe的检测率均为100%.  相似文献   

16.
决策树算法及其核心技术   总被引:1,自引:0,他引:1  
杨学兵  张俊 《微机发展》2007,17(1):43-45
决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型。概述了决策树分类算法,指出了决策树算法的核心技术:测试属性的选择和树枝修剪技术。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。最后,通过一个实例说明决策树分类在实际生产中的应用。  相似文献   

17.
在无标签高维数据普遍存在的数据挖掘和模式识别任务中,无监督特征选择是必不可少的预处理步骤。然而现有的大多数特征选择方法忽略了数据特征之间的相关性,选择出具有高冗余、低判别性的特征。本文提出一种基于联合不相关回归和非负谱分析的无监督特征选择方法(joint uncorrelated regression and nonnegative spectral analysis for unsupervised feature selection),在选择不相关且具有判别性特征的同时,自适应动态确定数据之间的相似性关系,从而能获得更准确的数据结构和标签信息。而且,模型中广义不相关约束能够避免平凡解,所以此方法具有不相关回归和非负谱聚类两种特征选择方法的优点。本文还设计出一种求解模型的高效算法,并在多个数据集上进行了大量实验与分析,验证模型的优越性。  相似文献   

18.
The aim of this paper is to propose a new hybrid data mining model based on combination of various feature selection and ensemble learning classification algorithms, in order to support decision making process. The model is built through several stages. In the first stage, initial dataset is preprocessed and apart of applying different preprocessing techniques, we paid a great attention to the feature selection. Five different feature selection algorithms were applied and their results, based on ROC and accuracy measures of logistic regression algorithm, were combined based on different voting types. We also proposed a new voting method, called if_any, that outperformed all other voting methods, as well as a single feature selection algorithm's results. In the next stage, a four different classification algorithms, including generalized linear model, support vector machine, naive Bayes and decision tree, were performed based on dataset obtained in the feature selection process. These classifiers were combined in eight different ensemble models using soft voting method. Using the real dataset, the experimental results show that hybrid model that is based on features selected by if_any voting method and ensemble GLM + DT model performs the highest performance and outperforms all other ensemble and single classifier models.  相似文献   

19.
采用数据挖掘手段,基于某银行零售业的数据,分析了客户的投资偏好。采用CART决策树进行特征筛选,发现客户群体年龄大于30岁,资产处于5万以上且工作稳定的保守型客户更倾向于购买银行基金产品。此外,还构建了逻辑回归模型对客户购买基金的概率进行预测。结果表明,通过数据挖掘相关方法所筛选得到的客户群体有更高的购买概率,因此极大地提高了银行从业人员的工作效率。  相似文献   

20.
The image mining technique deals with the extraction of implicit knowledge and image with data relationship or other patterns not explicitly stored in the images. It is an extension of data mining to image domain. The main objective of this paper is to apply image mining in the domain such as breast mammograms to classify and detect the cancerous tissue. Mammogram image can be classified into normal, benign, and malignant class. Total of 26 features including histogram intensity features and gray-level co-occurrence matrix features are extracted from mammogram images. A hybrid approach of feature selection is proposed, which approximately reduces 75% of the features, and new decision tree is used for classification. The most interesting one is that branch and bound algorithm that is used for feature selection provides the best optimal features and no where it is applied or used for gray-level co-occurrence matrix feature selection from mammogram. Experiments have been taken for a data set of 300 images taken from MIAS of different types with the aim of improving the accuracy by generating minimum number of rules to cover more patterns. The accuracy obtained by this method is approximately 97.7%, which is highly encouraging.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号