排序方式: 共有36条查询结果,搜索用时 15 毫秒
1.
面向大数据的海云数据系统关键技术研究 总被引:1,自引:0,他引:1
由于数据产生成本的急速下降,人类社会产生的数据不仅以指数级别增长,而且数据的结构变得日趋复杂,使得传统的数据分析技术遇到了极大的挑战.如何对大量复杂数据进行分析和挖掘,从中提取有价值的知识用于决策,已经成为产业界和学术界的广泛关注问题,在一些国家已上升到国家战略层面.本文介绍了大数据的基本概念、特征和面临的科学问题,总结了中国科学院战略性先导科技专项“面向感知中国的新一代信息技术研究”中“海云数据系统关键技术研究与系统研制”课题的一些先期成果,为开发大数据管理、分析和挖掘系统提供一些参考依据. 相似文献
2.
为了有效地发现复杂网络中的重叠社区结构,引入了密度峰值聚类算法,但将此算法应用于社区发现还存在如何度量节点间距离、如何产生重叠划分结果等问题。为此提出了一种基于节点局部相似性的两阶段密度峰值重叠社区发现方法(Node Local Similarity Based Two-stage Density Peaks Algorithm for Overlapping Community Detection, LSDPC)。该方法结合大度节点有利指标和连接贡献度定义了一种新的节点局部相似性指标,首先通过节点局部相似性度量节点距离;然后通过节点的局部密度和最小距离计算节点中心值,利用切比雪夫不等式筛选出社区中心节点;最后经过初次划分与重叠划分两阶段得到最终的重叠社区划分结果。在真实网络数据集与合成网络数据集上的实验结果表明,所提算法可以有效发现重叠社区结构,且结果优于其他对比算法。 相似文献
4.
局部因果结构学习是发现和学习给定一个目标变量的直接原因和直接结果而无需学习一个完整因果网络的过程.目前已有算法通常由两个步骤完成:步骤1使用约束类算法利用独立性测试学习目标变量的马尔科夫毯(MB)或父子节点集(PC),但是该步骤由于受到有限的数据样本量等因素影响使得独立性测试存在一定的错误性,而导致该步骤精度通常不是很... 相似文献
5.
评价搭配识别是评论挖掘的研究热点之一.针对现有方法存在的不足,通过对真实语料的观察和分析,提出了一种基于语法模板的评价搭配识别方法.该方法借助HowNet和语法分析等资源和工具,从大规模的真实评论语料中自动获取反映评价搭配规律的候选语法模板,对候选模板进行泛化和遴选,通过生成的模板识别待分析的评论句的搭配关系.在手机和数码相机两种电子产品领域上的对比实验验证了该方法是有效的. 相似文献
6.
基于新的距离度量的K-Modes聚类算法 总被引:4,自引:1,他引:4
传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离, 没有充分考虑其相似性. 对此, 基于粗糙集理论, 提出了一种新的距离度量. 该距离度量在度量同一分类属性下两个属性值之间的差异时, 克服了简单0-1匹配差异法的不足, 既考虑了它们本身的异同, 又考虑了其他相关分类属性对它们的区分性. 并将提出的距离度量应用于传统K-Modes聚类算法中. 通过与基于其他距离度量的K-Modes聚类算法进行实验比较, 结果表明新的距离度量是更加有效的. 相似文献
7.
Pawlak所提出的经典Rough集理论主要是针对完备信息系统的,利用不可分辨关系这种等价关系来对对象进行上近似和下近似分类.对于不完备信息系统的处理,需要对经典Rough集理论进行扩充,主要是对不可分辨关系进行扩充.对多值信息系统而言,目前有相似关系,但相似关系存在一定程度的局限性,为此提出一种基于类相似关系的扩充Rough集模型,并对该模型和相似关系模型之间的性能进行了比较,实例表明该模型具有较好的应用前景. 相似文献
8.
9.
10.
依据节点在社区中的连边情况,定义社区内节点的连边密度,构造社区的平均密度评价指标。经过实例验证,社区的平均密度评价指标能够克服模块度在完全图上的分辨率限制。同时,通过节点的连边密度和最优化社区的平均密度,提出连边密度传播算法。在真实数据和人工数据上进行测试,利用该算法划分社区后求得的模块度和社区平均密度都比利用BRIM算法、边集聚系数算法和资源分布算法求得的值高。这表明相比以上三种算法,连边密度传播算法更能够有效地发现二分网络的社区结构。 相似文献