共查询到20条相似文献,搜索用时 78 毫秒
1.
《电子技术与软件工程》2016,(4)
大数据时代的发展与变化实现了较快的传输方向和多样化的数据模式,特别是高维挖掘技术的不断应用,在大数据处理以及分析等方向上为人们的生产与生活提供较大方便。所以本文根据该模式的不断创新和应用,对大数据中的高维数据挖掘技术进行研究,并保证数据在变化与实现方式下的质量发展。 相似文献
2.
3.
4.
在数据挖掘的过程中,使用到很多分类算法,可见分类算法在数据挖掘中占有非常重要的地位。数据分类算法有很多种,各有不同的优缺点,因此,通过对不同算法特性的研究,有助于后期对算法进行相应的改进,确保新的分类算法能够具备更好的实用性能。数据分类算法的性能优良,不仅可以提高数据挖掘的功能性和实用性,还可以确保使用者对算法具备更多的选择性,基于此,对数据挖掘中不同的数据分类算法进行了研究和分析。 相似文献
5.
6.
数据挖掘技术虽说是一个比较新的数据库技术,但随着应用日益广泛,它得到了很大的关注。该文概述了数据挖掘的相关理论知识,并应用到教学实践,鉴于学校教学中因材施教的教学特点,提出了要应用数据挖掘技术来分析学习者自身的学习状态的观点。最后分析了数据挖掘中的问题及研究方向。 相似文献
8.
作为一门交叉学科,数据挖掘融合了数据库、人工智能、统计学等多个领域的理论和技术。数据库、人工智能和数理统计是数据挖掘技术讲究的三根强大的技术支柱。数据挖掘的主要任务是借助关联规则,决策树、聚类和基于样例的学习,贝叶斯学习、粗糙集、神经网络、遗传算法、统计分析等技术,采用数据取样(选取数据样本)数据探索(可视化数据探索与聚类分析和因子分选)、 相似文献
9.
根据刚体各部位具有变换一致性这一特性,提出一种采用高维数据聚类的目标跟踪方法。从数学理论方面证明提出的度量方法可以应用于目标跟踪, 称其为高维数据聚类跟踪器(HDDC tracker)。该算法框架如下,首先, 采用Harris检测器对模板与跟踪区域进行特征提取;然后利用这些特征的空间信息对所提取的特征进行编组;接着计算模板特征组与跟踪区域特征组间的仿射变换阵;最后,采用高维数据聚类对这些仿射变换阵进行度量, 将那些相似仿射阵对应的跟踪区域作为跟踪目标。实验表明: HDDC tracker能够有效地跟踪具有仿射形变的目标,并且性能优于先进跟踪算法。 相似文献
10.
11.
随着电网智能化程度的逐步深入,智能电网高维数据成为了“电网2.0”的重要价值资源.本文论述了智能电网大数据源、大数据流体系,讨论了传统电力数据聚类方法与特征,分析了智能电网高维数据所具有的稀疏性、空空间现象、维度效应、Hubness现象和离群点检测的特征,对智能电网高维数据从维数简化、索引技术、结果表征与评价方面论述了高维数据聚类分析方法和应用实践. 相似文献
12.
为了提高数据挖掘的效率,提出了一种基于GPU加速的离散数据挖掘方法,并且详细论述了实现的过程以及关键技术。通过实验表明,相对于传统方法该方法具有较高的计算效率和准确性,是实现数据挖掘的实用方法。 相似文献
13.
《现代电子技术》2019,(20)
典型网络高维数据软子空间聚类方法采用软子空间聚类算法,根据目标函数最优解判断聚类是否最优,最优解计算过程容易过度拟合陷入局部最优,导致分类结果精度低。故文中提出基于决策树的网络高维数据软子空间聚类方法,根据信息增益选择决策树节点,在信息增益基础上添加分裂信息项防止决策树节点过度分类,获取不同树节点属性类别划分结果。在此基础上采用后剪枝技术删除含有噪音和干扰属性结点,将包含样本数量最多的分类结果视为网络高维数据软子空间的分类结果。仿真实验结果表明,所提方法聚类分析正确率随着网络高维数据集维数的增加而增加,且随样本数量增加的同时运行时间增长幅度较低,用时较短,是一种应用价值高的网络高维数据软子空间聚类方法。 相似文献
14.
15.
《现代电子技术》2018,(1):125-128
传统文本信息挖掘技术系统能够对文本信息进行系统的信息挖掘,但是在大数据环境下容易产生系统的数据识别乱码以及数据干扰。针对上述问题,提出一种大数据环境下文本信息挖掘系统设计方案,在系统的硬件设备上增加数据简化器,通过数据简化器能够对数据进行一定的过滤筛选,保证数据进入识别阶段的准确率,同时促进了数据挖掘过程的效率,对文本信息挖掘的过程使用质数矩阵模型,通过建立的质数矩阵模型能够有效地对文本信息进行深层次的挖掘。同时优化了Aprioirt计算方法,保证了对文本信息的优先识别度,避免了传统方法中出现的数据混乱以及数据干扰问题。为了验证设计的大数据环境下文本信息挖掘系统的有效性,设计了对比仿真实验,通过实验数据的分析,有效地证明了设计的大数据环境下文本信息挖掘系统的有效性,避免了传统方法中出现的数据混乱以及数据干扰问题。 相似文献
16.
Fatih Altiparmak Hakan Ferhatosmanoglu Selnur Erdal Donald C Trost 《IEEE transactions on information technology in biomedicine》2006,10(2):254-263
An effective analysis of clinical trials data involves analyzing different types of data such as heterogeneous and high dimensional time series data. The current time series analysis methods generally assume that the series at hand have sufficient length to apply statistical techniques to them. Other ideal case assumptions are that data are collected in equal length intervals, and while comparing time series, the lengths are usually expected to be equal to each other. However, these assumptions are not valid for many real data sets, especially for the clinical trials data sets. An addition, the data sources are different from each other, the data are heterogeneous, and the sensitivity of the experiments varies by the source. Approaches for mining time series data need to be revisited, keeping the wide range of requirements in mind. In this paper, we propose a novel approach for information mining that involves two major steps: applying a data mining algorithm over homogeneous subsets of data, and identifying common or distinct patterns over the information gathered in the first step. Our approach is implemented specifically for heterogeneous and high dimensional time series clinical trials data. Using this framework, we propose a new way of utilizing frequent itemset mining, as well as clustering and declustering techniques with novel distance metrics for measuring similarity between time series data. By clustering the data, we find groups of analytes (substances in blood) that are most strongly correlated. Most of these relationships already known are verified by the clinical panels, and, in addition, we identify novel groups that need further biomedical analysis. A slight modification to our algorithm results an effective declustering of high dimensional time series data, which is then used for "feature selection." Using industry-sponsored clinical trials data sets, we are able to identify a small set of analytes that effectively models the state of normal health. 相似文献
17.
18.
19.
Te-Ming Tu Chin-Hsing Chen Jiunn-Lin Wu Chein-I Chang 《Geoscience and Remote Sensing, IEEE Transactions on》1998,36(1):182-191
Classification for high-dimensional remotely sensed data generally requires a large set of data samples and enormous processing time, particularly for hyperspectral image data. In this paper, the authors present a fast two-stage classification method composed of a band selection (BS) algorithm with feature extraction/selection (FSE) followed by a recursive maximum likelihood classifier (MLC). The first stage is to develop a BS algorithm coupled with FSE for data dimensionality reduction. The second stage is to design a fast recursive MLC (RMLC) so as to achieve computational efficiency. The experimental results show that the proposed recursive MLC, in conjunction with BS and FSE, reduces computing time significantly by a factor ranging from 30 to 145, as compared to the conventional MLC 相似文献
20.
孙金鑫 《智能计算机与应用》2018,(3):132-135
上个世纪,数据挖掘技术的兴起,帮助研究者能够从大量的数据中提取有价值的信息,Agrawal等人在90年代提出了关联规则挖掘技术,来发现大量数据中的相关性信息.经过多年的发展,关联规则已然成为数据挖掘技术中高度重要并相对而言较为成熟的一种方法.本文概论了关联规则在数据挖掘中的运用,详述了关联规则中现有经典算法,并对FP-Growth算法做出优化. 相似文献