首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 734 毫秒
1.
为了提高异构多核平台大数据精准挖掘能力,提出一种基于语义分割的异构多核平台大数据精准挖掘方法。构建异构多核平台大数据的模糊信息检测模型,采用关联特征提取方法进行异构多核平台大数据的模糊指向性聚类分析。构建异构多核平台大数据的输出自相关特征匹配模型,结合语义特征提取方法进行异构多核平台大数据的特征提取和统计分析。建立异构多核平台大数据的语义动态特征分析模型,提取异构多核平台大数据的统计特征量。根据异构多核平台大数据的特征提取结果采用模糊C均值聚类方法进行大数据聚类,采用语义分割进行异构多核平台大数据挖掘过程中的自适应寻优,实现异构多核平台大数据的优化挖掘。仿真结果表明,采用该方法进行异构多核平台大数据挖掘的精度较高,特征分辨能力较好,可提高异构多核平台大数据的挖掘和检测能力。  相似文献   

2.
用关联分析技术识别不良信息特征项的新方法   总被引:4,自引:0,他引:4  
不良信息特征项的挖掘精度制约着不良信息鉴别与过滤的效果。文章从数据挖掘的角度对不良信息特征项的识别进行研究,提出了一种自动高效地挖掘文档潜在特征项的新方法:首先对文档进行必要的预处理,包括自动分词、无用项过滤、项标引以及项的分箱操作等,然后利用数据挖掘中的关联分析技术识别文档中的特征项。试验结果验证了该方法的可行性。  相似文献   

3.
中药特性信息数据挖掘系统中的预处理设计   总被引:4,自引:1,他引:3       下载免费PDF全文
中药数据的不规范,使预处理成为数据挖掘系统中的一个重要过程。该文开发中药特性信息数据挖掘系统,介绍系统结构与挖掘流程,分析中药数据的特征,对数据进行预处理,包括过滤噪声数据、中医药术语规范化、缺损数据处理、剂量单位规范化、作用度规一化、功效量化等。  相似文献   

4.
针对数据挖掘技术在散货船代数据中的应用,通过聚类规则分析航线繁忙度和航线价值.首先预处理原始散货船代数据并提取符合挖掘目标的数据:再通过改进的k-means算法挖掘预处理后的数据;最后对挖掘结果进行分析,为船代企业的资源分配及策略制定提供参考.  相似文献   

5.
为解决传统关联聚类算法挖掘网络异常数据时间复杂度高、精确度不理想等问题,提出Spark-MML聚类算法。为Apriori关联规则算法设计并行化频繁项集挖掘环境,使用兴趣度约束与支持度自适应策略挖掘网络数据特征量强关联规则;利用可变网格的局部离群点检测算法剔除K-means聚类离群点,基于最大最小距离确定聚类中心及数值K,将网络数据分为异常和非异常。测试结果表明,该方法避免聚类中心选取陷入局部最优,降低了异常数据挖掘的时间复杂度,有效节约算法运行空间,是一种可靠的网络异常数据挖掘方法。  相似文献   

6.
互联网环境下的数据信息量日趋增多,增加了数据挖掘的难度。为了更好地对数据信息进行挖掘和提取,可以引入机器学习的技术和方法,构建基于机器学习的K-means聚类算法和数据预处理相结合的框架。本文以校园一卡通消费数据为研究对象,结合数据信息的特征和规律,对数据信息进行脱敏处理、清洗、规约和集成等操作,进一步对数据进行整合和优化,较好地实现数据挖掘价值的最大化。  相似文献   

7.
高维数据挖掘由于特征空间占用开销较大,挖掘的复杂度较高,挖掘精度不高,为了提高对高维数据挖掘的准确性能,提出一种基于相空间重构和K-L变换特征压缩的高维数据挖掘数学建模方法。采用集成学习技术,对高维数据信息流进行相空间重构处理,考虑类间的数据不平衡性,求得高维数据的关联维特征参量,根据数据的链距离进行稀疏性融合,计算高维数据流模型的最大Lyapunove指数谱,根据谱分析方法实现数据聚类,对聚类后的数据采用K-L特征压缩方法进行降维处理,降低数据挖掘的内存及计算开销。仿真结果表明,采用该方法进行高维数据挖掘,数据挖掘的准确概率较高,占用内存消耗较少,计算开销较小。  相似文献   

8.
刘琰琼  张文生  李益群  杨柳 《计算机工程》2011,37(5):207-209,212
传统聚类方法处理的是同构数据,无法满足异构数据同时聚类的应用需求,聚类结果的准确率较低,标签可读性较差。针对上述问题,提出一种基于电阻网络的异构数据协同聚类算法。该算法将异构关联数据抽象为多部图形式的电阻网络,进行特征计算及聚类。在对异构数据进行协同聚类后,可以得到一种聚类结构,其中每一类包含多种异构数据,它们之间可以互为标签,标签可读性高。实验结果证明,该方法是一种切实可行且效果优异的数据聚类算法。  相似文献   

9.
连续属性离散化在数据分析的数据预处理中非常重要。本文提出一种基于类信息熵的有监督连续属性离散化方法。该方法运用了粗集理论中决策表的一致性水平的概念。算法分成两部分:首先根据决策表的一致性水平动态调整聚类类别数目,运用分级聚类形成初始聚类。然后,基于类信息熵合并相邻区域,减少区间数目。实践证明该方法是可行的。  相似文献   

10.
增量式挖掘方法有适应大规模动态数据、降低内存需求和可实现并行处理等诸多好处,但是目前的增量式聚类方法存在参数限制较多和计算结果不够准确等问题.在信息源变化的数据挖掘体系结构下,利用一群特殊的智能代理增量修改知识模型,提出了群体智能聚类模型的构建方法及增量模型维护算法.该方法利用信息熵加快聚类过程,根据信息素和数据库的插入及删除增量操作调整已生成的聚群,设定的参数较少,实验表明聚类结果准确.  相似文献   

11.
研究了语义数据的聚类问题,提出了一种基于样本内在结构的结构嫡聚类SEC算法。通过给出语义属性相异性度量测度的新定义,挖掘蕴含于数据样本中的结构信息,提出了一种根据结构信息计算样本信息嫡的优化方法,即通过嫡来确定样本的聚类中心,从而完成样本的聚类,并把此方法向异构数据进行了拓展。SEC算法能实现不平衡数据的聚类,能自动确定初始类中心和聚类数目,具有无需迭代、效率高和相当的鲁棒性优势。实验表明,算法是有效的,与文献中的已有方法相比,聚类准确率得到显著提高,具有一定的实用价值。  相似文献   

12.
基于信息论的高维海量数据离群点挖掘   总被引:1,自引:1,他引:0  
针对高维海量数据集离群点挖掘存在“维数灾难”的问题,提出了基于信息论的高维海量数据的离群点挖掘算法。该算法采用属性选择,去除冗余属性降维。利用信息嫡作为离群点判断的度量标准,消除距离和密度量纲的弊端。在真实数据集上的实验结果表明,算法对高维海量数据离群点挖掘是有效可行的,其效率和精度得到了明显提高。  相似文献   

13.
随着Internet技术的高速发展,如何从海量的Web信息中快速而有效地获得所需信息也就成为一项重要课题,而数据挖掘技术是解决这一难题的有效办法。其中数据挖掘中的聚类方法是用来发现数据分布的一项重要方法。本文首先阐述了Web挖掘的有关理论,然后针对Web挖掘中的分层聚类法进行了较为详细的论述,最后使用该算法并结合改进的特征权值计算方法和文本相似度的计算方法,建立了训练文本库。  相似文献   

14.
李海林  杨丽彬 《控制与决策》2013,28(11):1718-1722

数据降维和特征表示是解决时间序列维灾问题的关键技术和重要方法, 它们在时间序列数据挖掘中起基础性作用. 鉴于此, 提出一种新的时间序列数据降维和特征表示方法, 利用正交多项式回归模型对时间序列实现特征提取, 结合特征序列长度对时间序列的拟合分析结果, 运用奇异值分解方法对特征序列进一步降维处理, 进而得到保存大部分信息且维数更低的特征序列. 数值实验结果表明, 新方法可以在维度较低的特征空间下取得较好的数据挖掘聚类和分类效果.

  相似文献   

15.
充电站运营系统是为电动汽车提供充电服务,并与电网、充电站与电力网、交通网数据中心相连接,通过数据库的信息共享、互动和数据挖掘,达到充电站高效运营管理。本文就智能充电站的运营系统的整体结构与数据分析进行探讨。运用Q-Learning算法从用户实现总成本的最优(小),作出最佳的充电服务选择角度分析用户充电决策,可在运营数据挖掘中预测用户的充电行为规律,进而预测运营的充电站设备利用状况,能够对不同充电设施规划方案下的充电负荷进行更加真实准确的计算,从而获得更加准确的充电站运行成本,最终为充电站制定的充电服务运营策略提供依据帮助,进而帮助充电站提高设备利用,提升充电站运营效益。也为日后扩建、新建充电站设备数量、类型、地点等信息提供决策依据。  相似文献   

16.
针对小区居民用电数据挖掘效率低、数据量大等难题,进行了基于云计算和改进K-means算法的海量用电数据分析方法研究。针对传统K-means算法中存在初始聚类中心和K值难确定的问题,提出一种基于密度的K-means改进算法。首先,定义样本密度、簇内样本平均距离的倒数和簇间距离三者乘积为权值积,通过最大权值积法依次确定聚类中心,提高了聚类的准确率;然后,基于MapReduce模型实现改进算法的并行化,提高了聚类的效率;最后,以小区400户家庭用电数据为基础,进行海量电力数据的挖掘分析实验。以家庭为单位,提取出用户的峰时耗电率、负荷率、谷电负荷系数以及平段用电量百分比,建立聚类的数据维度特征向量,完成相似用户类型的聚类,同时分析出各类用户的行为特征。基于Hadoop集群的实验结果证明提出的改进K-means算法运行稳定、可靠,具有很好的聚类效果。  相似文献   

17.
智能车间生产数据的多工序、跨流程、异构多态的特性加剧了生产过程中工艺数据关联融合问题的复杂性.面向复杂时空域下多维多尺度车间数据,提出一种基于时序聚类-关联挖掘-复杂网络的深度融合建模方法.首先,通过高斯核函数与一维卷积运算描述车间数据的聚类特征,采用欧氏距离度量车间时序数据特征向量间的相似性,并将处理后的时序特征引入聚类分析中;其次,通过时序数据关联规则提取各工艺参数之间蕴含的内在规律和关联关系,采用支持度与置信度完成关联规则的深度挖掘;然后,依据车间跨流程多工序协同运行特点,构建以多工序的工艺参数为节点、关联关系为边的带时间窗的生产工艺过程双权重有向多层网络模型,为车间跨流程、多工序、异构多态的工艺指标间的复杂关联关系的描述提供依据;最后,以某制丝生产线质量调控为例,对所提出方法的有效性和适用性进行验证.  相似文献   

18.
目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾,针对粗糙集给出了基于逐级均值聚类的信息熵的离散化算法。首先使用改进的逐级均值聚类算法分别对单个属性的候选断点按其信息熵值进行聚类分析,生成新的规模更小的候选断点集,然后用基于信息熵的离散化算法完成断点的选取并对连续值属性进行离散化。实验结果表明,该方法在识别率相当的情况下比传统的离散化方法的时间代价更低。  相似文献   

19.
面向大数据集管理的数据聚类方法研究在模式识别、故障诊断和数据挖掘等领域具有重要的研究意义。传统的大数据聚类算法采用混合差分进化的粒子群算法,因数据信息流分量之间的交叉作用而出现的类间交叉项干扰影响了聚类分量的正确判断,聚类效果不好。提出了一种基于时频聚集交叉项干扰抑制的大数据聚类算法。在面向传播学视域下物联网大数据库中生成大数据聚类的信息特征向量,对任意两个分簇矢量进行近邻样本的隶属度训练,在时间滑动窗口模型中进行信息调度,采用高频分量抑制方法实现对时频聚集交叉项的干扰抑制,通过频域卷积相似度融合处理,采用粒子群优化算法进行聚类适应度计算,以实现数据聚类算法改进。仿真结果表明,采用该算法进行大数据聚类,具有较好的抗干扰性和自适应性,聚类准确度较高。  相似文献   

20.
为更有效地提取图像的显著特征,提高多聚焦图像融合的性能,针对高斯核不完备基的缺点,其生成的滤波器不能有效提取图像显著特征,利用小波核近似正交和信号局部分析的优点,构造支持度变换,经过支持度分解后的低频信息使用PCNN的融合规则,高频信息使用绝对值最大选取的规则进行图像融合,实验数据和理论分析表明:该方法有效地改进了图像的显著特征,与高斯核构造的支持度变换图像融合方法相比,信息熵等评价指标结果均有提高,并且视觉效果有所改进。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号