排序方式: 共有25条查询结果,搜索用时 296 毫秒
21.
医患纠纷类裁判文书的多标签分类是对其进行高效检索和管理的基础,然而,医患纠纷数据集的类别不平衡和标签共生现象直接影响到文书的多标签分类效果。为此,提出了一种重采样和集成学习相结合的文本多标签分类方案。该方案首先提出一种基于标签集合平均稀疏度的样本重采样算法,用于降低标签共生对重采样的影响,从而改善数据集的类别不平衡性;然后,提出一种基于集成学习的多标签分类算法,其基于重采样后的数据集分别训练出多个基分类器,并对各基分类器以一票否决的投票策略进行组合,从而进一步提升分类器的多标签分类效果。实验结果表明,提出的多标签分类方案不仅适用于医患纠纷类裁判文书,而且适用于其他存在类别不平衡和标签共生问题的文本数据集。 相似文献
22.
序列模式的挖掘是近年来的研究热点之一,目前很多研究都集中在闭合频繁项集与闭合序列模式的挖掘,较少涉及更加复杂、有重要应用价值的组合序列模式.针对任意长度和任意组合次数的频繁组合序列模式,提出了一种挖掘全部闭合的组合序列的算法CloCSP.为克服指数量级的候选序列进行闭合检验的困难,提出了既能生成频繁组合序列,又能有效剪枝,并同时完成闭合检验的混合扩展策略,该策略无需维护候选集.实验表明,CloCSP算法能够有效挖掘出隐藏在序列数据中,尤其是稠密数据集内的闭合组合序列模式,有助于揭示更加复杂的序列模式. 相似文献
23.
无线传感器网络通常能量与通信带宽有限、计算与存储能力受限,这对数据的传输以及数据的分析与挖掘提出了新的挑战。本文提出了一种数据的近似方法,讨论了数据的压缩与近似恢复,并且在此基础上分析了数据的相似性度量。理论分析和实验结果表明,在保证数据精度的前提下,该方法能够有效地对数据进行压缩降维,节省存储空间和减少网络数据传输量;并且能够在压缩后的数据上进行数据的相似性度量,提高了数据聚类分析的效率。 相似文献
24.
静态物化视图的动态Cache优化算法 总被引:2,自引:0,他引:2
针对静态物化视图集动态适应能力的不足,提出一种动态cache优化算法DCO(dynamic cacheoptimization).它在保持静态算法获取最优物化集能力的基础上,将cache机制直观、快速的动态特性结合进来,以提高数据仓库的动态自适应性能.在cache机制具体实现中提出了一种新颖的空间申请方法,可以充分利用系统剩余空间提高查询响应性能.实验结果在表明算法有效、可行的同时,也显示出该算法可以在一定程度上克服静态物化集存在的空间-性能饱和效应(space-performance saturation effect,简称SPSE),使通过增加物化空间进一步提高数据仓库对查询的响应速度成为可能. 相似文献
25.
基于动态网格的数据流离群点快速检测算法 总被引:8,自引:0,他引:8
离群点检测问题作为数据挖掘的一个重要任务,在众多领域中得到了应用.近年来,基于数据流数据的挖掘算法研究受到越来越多的重视.为了解决数据流数据中的离群点检测问题,提出了一种基于数据空间动态网格划分的快速数据流离群点检测算法.算法利用动态网格对空间中的稠密和稀疏区域进行划分,过滤处于稠密区域的大量主体数据,有效地减少了算法所需考察的数据对象的规模.而对于稀疏区域中的候选离群点,采用近似方法计算其离群度,具有高离群度的数据作为离群点输出.在保证一定精确度的条件下,算法的运行效率可以得到大幅度提高.对模拟数据集和真实数据集的实验检测均验证了该算法具有良好的适用性和有效性. 相似文献