首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
张春生  庄丽艳 《计算机应用》2013,33(10):2796-2800
Apriori关联规则数据挖掘算法只针对一类相关数据集进行数据挖掘,而现实世界中各种不同的数据集非常庞大,如何在不相关数据集间进行数据挖掘,拓展规则的数量具有挑战性。目前Apriori关联规则算法研究基本上集中在算法性能优化和针对不同数据形式的基础上,没有突破不相关数据集的界限。针对这个问题,首先给出了相关数据集、不相关数据集、相容数据集的概念,进一步给出了一种基于Apriori的不相关数据集中相容数据集间的关联规则演绎算法,给出了算法演绎规则,通过构建法证明了算法的正确性。通过实例演示了应用方法,该算法可实现基于Apriori的相容数据集间关联规则的规则演绎,是普通数据挖掘算法无法实现的,扩展了关联规则算法的应用领域;同时,由于关联规则是在相容数据集上独立挖掘出来的,没有进行原始数据间的交换,在一定程度上实现了隐私保护  相似文献   

2.
A procedure for analyzing unbalanced datasets   总被引:2,自引:0,他引:2  
This paper describes a procedure for analyzing unbalanced datasets that include many nominal- and ordinal-scale factors. Such datasets are often found in company datasets used for benchmarking and productivity assessment. The two major problems caused by lack of balance are that the impact of factors can be concealed and that spurious impacts can be observed. These effects are examined with the help of two small artificial datasets. The paper proposes a method of forward pass residual analysis to analyze such datasets. The analysis procedure is demonstrated on the artificial datasets and then applied to the COCOMO dataset. The paper ends with a discussion of the advantages and limitations of the analysis procedure  相似文献   

3.
来自异构数据源的语义数据集之间关联的缺失严重影响了数据网的构建和发展。语义数据集中,实例数据之间共指关系的发现和构建能够丰富数据集之间的关联,从而有助于在数据集之间进行推理和查询。在基于相似度分析的共指关系构建的过程中,实例属性的权重及属性值的相似度对实例相似度具有重要作用。提出一种新的基于数据集统计信息计算属性权重的模型,并从概率统计的角度证明其合理性。同时分析了这种权重计算模型相对于传统的权重计算方法的优势。基于新的权重计方法,实现了共指关系构建系统,并利用开放的语义数据集验证了其正确性。  相似文献   

4.
科学数据共享在促进科学发展过程中具有重要意义。综合性科学数据中心要对多元化的科学数据提供服务,保护数据提供者的权益,也要保证数据的可获取性。回顾了科学数据共享的发展现状,针对综合性科学数据中心,将科学数据作为一种虚拟商品对待,利用B2C概念构建综合性科学数据共享系统,基于数据用户、数据提供者、数据中心3类用户实现了对应的功能。从科学数据的描述、发布、发现、流通以及评价5个方面对科学数据共享系统的关键问题进行了讨论。以中国西部环境与生态科学数据中心为应用实例,介绍了基于B2C架构的科学数据共享系统的应用方法。  相似文献   

5.
肖文  胡娟 《计算机应用》2018,38(4):995-1000
频繁项集挖掘(FIM)是最基础的数据挖掘任务之一,被挖掘数据集的特征对FIM算法的性能有着显著影响。数据集稀疏度是体现数据集本质特征的属性之一,不同类型的FIM算法对数据集稀疏度的可扩展性有着很大的不同。针对如何量化度量数据集稀疏度及稀疏度对不同类型FIM算法性能影响等问题,首先回顾并讨论了已有的度量方法,然后提出两种新的量化度量数据集稀疏度的方法(基于事务差异度的度量方法和基于FP-Tree的度量方法)。这两种度量方法均考虑了FIM任务背景下最小支持度对数据集稀疏度的影响,反映的是事务频繁项集之间的差异度。最后通过实验验证了不同类型FIM算法对数据集稀疏度的可扩展性。实验结果表明,数据集稀疏度与最小支持度成反比,基于垂直格式的FIM算法在三类典型FIM算法中具有最佳的稀疏度可扩展性。  相似文献   

6.
频繁项集挖掘FIM是最重要的数据挖掘任务之一,被挖掘数据集的特征对FIM算法的性能有着显著影响。在大数据时代,稀疏是大数据的典型特征之一,对传统FIM算法的性能带来严峻挑战。针对在稀疏数据中如何高效进行FIM的问题,从稀疏数据的特征出发,分析了稀疏数据对3种类型FIM算法性能的主要影响,对已经提出的稀疏数据FIM算法进行了综述,对算法中采用的优化策略进行了讨论,最后通过实验对代表性的稀疏数据FIM算法进行了性能分析。实验结果表明,采用伪构造策略的模式增长算法最适合用于稀疏数据的FIM,在运算时间和存储空间上,相比其他算法该算法具有较大的优势。  相似文献   

7.
一种基于克隆选择的聚类算法   总被引:3,自引:0,他引:3  
罗印升  李人厚  张维玺 《控制与决策》2005,20(11):1261-1264
将克隆选择原理同典型的划分聚类方法结合起来,提出一种克隆选择聚类算法.该算法具有完成任意形状数据集聚类的能力,可以自动确定簇的数目并得到簇的描述信息,计算量小,参数设置容易,适用于具有实值连续属性的数据集.基于模拟数据集和基准数据集分别进行实验,结果表明该算法是有效的.  相似文献   

8.
将集成学习方法应用到XML文档聚类中来改进传统聚类算法的不足。提出一种标签与路径相结合的XML文档向量模型,基于这个模型,首先对原始文档集进行多次抽样,在新文档集上进行K均值聚类,然后对得到的聚类中心集合进行层次聚类。在人工数据集和真实数据集上的实验表明,该算法在召回率和精确率上优于K均值算法,并且增强了其鲁棒性。  相似文献   

9.
We present a novel formulation for quasi-supervised learning that extends the learning paradigm to large datasets. Quasi-supervised learning computes the posterior probabilities of overlapping datasets at each sample and labels those that are highly specific to their respective datasets. The proposed formulation partitions the data into sample groups to compute the dataset posterior probabilities in a smaller computational complexity. In experiments on synthetic as well as real datasets, the proposed algorithm attained significant reduction in the computation time for similar recognition performances compared to the original algorithm, effectively generalizing the quasi-supervised learning paradigm to applications characterized by very large datasets.  相似文献   

10.
当前行人属性识别(PAR)公开数据集中属性标注繁杂且采集场景多样,各数据集中行人属性差异较大,进而导致公开数据库已有的标记信息数据难以直接应用到PAR实际问题中。针对上述问题,提出一种基于领域自适应的多源多标签PAR方法。首先通过领域自适应方法对样本进行特征对齐完成多个数据集之间的统一风格转换;接着提出多属性one-hot编码加权算法,将多数据集中共有属性的标签对齐;最后结合多标签半监督损失函数,进行跨数据集联合训练以提高属性识别准确率。通过所提出的特征对齐和标签对齐算法,可有效解决PAR多数据集中属性异构性问题。将三个行人属性数据集PETA、RAPv1和RAPv2分别与PA-100K数据集对齐后的实验结果表明,所提出的方法对比StrongBaseline在平均准确率上分别提升了1.22、1.62和1.53个百分点,说明该方法在跨数据集PAR中具有一定的优势。  相似文献   

11.
大数据处理分析算法在优化研究过程中,速度常常受限于数据集的规模。在数据集体量不足时,算法的通信时间往往要高于真正的计算时间,无法验证真实的效果。故设计实现了一个大数据集生成器,为运行在超级计算机上的并行大数据处理分析算法提供基准测试数据集。首先,使用MPI并行编程技术构造了一个并行随机数生成器,在此基础上设计实现了可控制规模及复杂性的人工数据集,主要包括:分类和聚类数据集、回归数据集、流形学习数据集和因子分解数据集等。其次,设计了大数据集生成器的I/O系统,提供MPI-I/O并行读、写数据集的接口,并设置了数据集在不同进程间的分发、映射规则,通过点对点通信实现不同节点之间的数据交互。实验结果表明,并行大数据集生成器有效提高了数据生成效率和生成规模,为并行大数据处理分析算法提供了高质量、大体量的测试数据集。  相似文献   

12.
13.
14.
基于投影数据集的序列模式增量挖掘算法   总被引:1,自引:0,他引:1  
提出一种基于投影数据集的序列增量更新算法Inc_SPM,该算法以PrefixSpan算法为基础。首先利用已有的知识得出频繁1序列,然后生成投影数据集以迭代产生频繁k序列;同时为了控制投影数据集的规模,利用等价投影数据集来改进投影终止条件。  相似文献   

15.
Data weighting is of paramount importance with respect to classification performance in pattern recognition applications. In this paper, the output labels of datasets have been encoded using binary codes (numbers) and by this way provided a novel data weighting method called binary encoded output based data weighting (BEOBDW). In the proposed data weighting method, first of all, the output labels of datasets have been encoded with binary codes and then obtained two encoded output labels. Depending to these encoded outputs, the data points in datasets have been weighted using the relationships between features of datasets and two encoded output labels. To generalize the proposed data weighting method, five datasets have been used. These datasets are chain link (2 classes), two spiral (2 classes), iris (3 classes), wine (3 classes), and dermatology (6 classes). After applied BEOBDW to five datasets, the k-NN (nearest neighbor) classifier has been used to classify the weighted datasets. A set of experiments on used real world datasets demonstrated that the proposed data weighting method is a very efficient and has robust discrimination ability in the classification of datasets. BEOBDW method could be confidently used before many classification algorithms.  相似文献   

16.
文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。  相似文献   

17.
文章针对公开数据集上的隐私数据保护展开研究,分析了经典的k匿名算法在处理连续发布的数据集时存在的不足,在新的应用场景下对其进行改进。文章提出的算法通过增量式的数据处理技术减少了时间开销,适用于大规模数据集的快速连续发布。算法通过为每个数据元组选择最优等价类,有效控制了信息损失。算法以敏感属性值泛化技术代替了伪造元组的引入,保证了数据集上只包含真实数据,提高了数据集的可用性。通过实例分析发现提出的算法可以很好的解决连续发布数据集上的隐私保护问题。  相似文献   

18.
支持向量机在大规模训练集上学习时,存在学习时间长、泛化能力下降的问题。路径跟踪算法具有O(n L)的时间复杂度,能够在多项式时间内求解大规模QP问题。分析了影响SVM分类超平面的主要因素,使用路径跟踪内点算法和核距离矩阵快速约简训练集,再用约简后的训练集重新训练SVM。实验结果表明,重新训练后的SVM模型得到了简化,模型的泛化能力也得到提高。  相似文献   

19.
由于影像学技术在新型冠状病毒肺炎(COVID-19)的诊断和评估中发挥了重要作用,COVID-19相关数据集陆续被公布,但目前针对相关文献中数据集以及研究进展的整理相对较少。为此,通过COVID-19相关的期刊论文、报告和相关开源数据集网站,对涉及到的新冠肺炎数据集及深度学习模型进行整理和分析,包括计算机断层扫描(CT)图像数据集和X射线(CXR)图像数据集。对这些数据集呈现的医学影像的特征进行分析;重点论述开源数据集,以及在相关数据集上表现较好的分类和分割模型。最后讨论了肺部影像学技术未来的发展趋势。  相似文献   

20.
研究l2范数正则化最小二乘支持向量机的坐标下降算法实现.在图像处理、人类基因组分析、信息检索、数据管理和数据挖掘中经常会遇到机器学习目标函数要处理的数据无法在内存中处理的场景.最近研究表明大规模线性支持向量机使用坐标下降方法具有较好的分类性能,在此工作基础上,文中扩展坐标下降方法到最小二乘支持向量机上,提出坐标下降l2范数LS-SVM分类算法.该算法把LS-SVM目标函数中模型向量的优化问题简化为特征分量的单目标逐次优化问题.在高维小样本数据集、中等规模数据集和大样本数据集上的实验验证了该算法的有效性,与LS-SVM分类算法相比,在数据内存中无法处理的情况下可作为备用方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号