首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 59 毫秒
1.
刘世华  黄德才 《控制与决策》2017,32(8):1421-1426
提出一种维度概率摘要模型,将聚类产生的簇摘要信息采用各维度的概率分布来表示;定义点簇相似度、簇簇相似度等相似性度量方法;提出一种基于维度概率摘要模型的凝聚层次聚类算法.实验分析发现,所提模型和算法能够产生高质量的聚类,能够避免噪声点的影响并发现离群点,能够自动发现聚类,算法稳定可靠且对高维数据集聚类效果很好.  相似文献   

2.
基于随机游走模型和KL-divergence的聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
何会民 《计算机工程》2008,34(16):224-226
聚类分析在数据挖掘领域有着广泛的应用,该文提出一个聚类新思路,它不需要任何参数的假设,只基于数据两两之间的相似性。该方法假设数据点之间存在随机游走关系,根据数据相似性构造随机游走过程的转移矩阵,当随机游走过程进入收敛期后,t阶转移矩阵揭示了数据点的分布。用迭代方法寻找最小的KL-divergence来对这些分布聚类。该方法具有严谨的概率理论基础,避免了传统算法需要参数假设、限于局部最优等不足。实验表明,该算法具有较优的聚类效果。  相似文献   

3.
基于蚁群算法的文本聚类算法   总被引:1,自引:2,他引:1       下载免费PDF全文
针对目前文本检索后的相关反馈信息较少用于文本聚类中的问题,根据蚂蚁觅食聚类算法的思想,将文本检索后的相关反馈信息应用到文本聚类过程中,提出一种基于蚁群算法的文本聚类算法。分析簇的结构及其生成过程,论述聚类中簇合并的规则及算法。实验结果表明,该算法具有良好的聚类效果,能有效提高查询的文本召回率。  相似文献   

4.
实体识别是将一个或多个数据源中描述同一现实世界实体的数据对象分到同一组的过程,它 在数据清洗、数据集成、数据挖掘中起着至关重要的作用。然而,实体的特征具有随时间演化的特性,这使得实体识别面临巨大的挑战。传统的实体识别方法解决了特征随着时间规律性的改变问题,但没有考虑到数据的不规律变化。该文提出了基于分类的方法解决特征不规律演化的实体识别问题。该方法首先利用机器学习中改进的随机森林的方法计算记录的相似性,接着提出了一个新型的两阶段 聚类算法完成记录聚类过程,最后通过在真实数据集上的对比试验证明了该算法的有效性。通过在真实数据集上的实验,证明了该方法能够有效提高演化实体的识别准确性。  相似文献   

5.
简单有效的确定聚类数目算法   总被引:2,自引:0,他引:2       下载免费PDF全文
很多聚类算法要求用户在聚类之前给出聚类数目,这给用户带来了很大的困难。利用二分思想递归分裂簇内相似度大于给定阈值的簇,最后合并簇间相似度小于给定阈值的簇,来获得最终聚类数目。实验表明提出的算法确定的聚类数目和实际聚类数目相同,并且簇内数据的相似性高,簇间数据的相似性低,该算法简单高效。  相似文献   

6.
将夹角余弦的概念推广到混合属性的数据,提出了一种基于相似度的聚类方法CABMS,同时给出了一种计算聚类阈值的简单有效的策略。有关CABMS数据库的大小,属性个数具有近似线性时间复杂度,使得聚类方法CABMS具有好的扩展性。实验结果表明,CABMS可产生高质量的聚类结果。  相似文献   

7.
指纹匹配算法的好坏直接影响识别系统的精度。本文提出了一种新的基于细节点聚类的多参考中心指纹匹配算法。实验结果表明本文所提出的方法提高了匹配的性能。  相似文献   

8.
指纹匹配算法的好坏直接影响识别系统的精度。本文提出了一种新的基于细节点聚类的多参考中心指纹匹配算法。实验结果表明本文所提出的方法提高了匹配的性能。  相似文献   

9.
目前适用于犹豫模糊数据对象集的聚类算法研究仍然非常有限,现有的犹豫模糊数据对象集层次聚类算法受异常点影响较大且容易聚成链状.针对上述问题,本文首先提出了一种可扩展的犹豫模糊集的加权相似度计算方法,该方法不仅可以利用不同的函数计算相似度,而且可以根据实际问题构造最优的相似度函数.基于该加权相似度计算方法,结合经典的谱聚类算法提出了犹豫模糊数据对象集的谱聚类算法(SCHF).针对目前国内外还没有可用于犹豫模糊数据对象集聚类的标准数据集的现实情况,本文提出了一种确定性数据的犹豫模糊方法并在仿真实验中应用.仿真实验不仅验证了SCHF算法的有效性,而且表明SCHF算法比两种已知算法有更好的聚类效果.  相似文献   

10.
孔令旗  杨梦龙 《计算机应用》2011,31(5):1395-1399
针对FEC算法存在的稳定性不够、网络簇抽取质量亟待提高等问题,从以下几个方面对原算法进行了改进:在随机游走前添加了选择目标顶点功能;采用自动步数探测法取消了原算法的随机游走步数参数;在原有的簇抽取评价条件的基础上补充了簇间连接权重评价;通过引入阈值参数实现了簇抽取粒度的可控性。测试结果表明,改进后的算法在稳定性、抗干扰性和聚类分析质量等方面比原算法都有所提高。  相似文献   

11.
数据量大、数据更新速度快、数据源多样和数据存在噪声是大数据的四大特点,这为数据集成提出了新的挑战.实体解析是数据集成的一个重要步骤,在大数据环境下,传统的实体解析算法在效率、质量,特别是抗噪声能力方面的表现并不理想.为了解决大数据环境中因为数据噪声所导致的解析结果冲突,将公共邻居引入相关性聚类问题.上层预分块算法基于邻居关系设计,因而能够快速有效地完成初步分块;核概念的引入更精确地定义了节点与类之间的关联程度,以便下层调整算法准确地判断节点的归属,进而提高相关性聚类的准确度.两层算法采用较为粗糙的相似度距离函数,使得算法不仅简单而且高效.同时,由于引入邻居关系,算法的抗噪声能力明显提高.大量实验表明,两层相关性聚类算法无论在解析质量、抗噪声能力还是在扩展性方面均优于传统算法.  相似文献   

12.
实体分辨广泛地存在于数据质量控制、信息检索、数据集成等数据任务中.传统的实体分辨主要面向关系型数据,而随着大数据技术的发展,文本、图像等模态不同的数据大量涌现催生了跨模态数据应用需求,将跨模态数据实体分辨提升为大数据处理和分析的基础问题之一.对跨模态实体分辨问题的研究进展进行回顾,首先介绍问题的定义、评价指标;然后,以模态内关系的保持和模态间关系的建立为主线,对现有研究进行总结和梳理;并且,通过在多个公开数据集上对常用方法进行测试,对出现差异的原因和进行分析;最后,总结当前研究仍然存在的问题,并依据这些问题给出未来可能的研究方向.  相似文献   

13.
刘雪莉  王宏志  李建中  高宏 《软件学报》2015,26(6):1421-1437
按照元组描述的实体对其进行组织和查询处理,是一种管理劣质数据的有效方法.考虑到同一个实体的同一属性存在多个描述的值,因此,基于实体的数据库上的连接是支持多个值的相似性连接.与字符串的相似性连接相比较,实体的相似性连接在数据清洗、信息集成、模糊关键字查询、诈骗检测和文本聚集等领域有着更好的应用效果.通过建立双层索引结构,提出了实体数据库上相似性连接算法ES-JOIN.同时,该方法适用于解决集合中字符串模糊匹配的相似性连接问题,而传统的集合相似性连接只针对集合中元素精确匹配的情况.为了加速连接,还提出了过滤措施对算法进行优化,进一步给出了优化算法OPT_ES-JOIN.实验验证了ES-JOIN算法和OPT_ES-JOIN算法具有很好的效率和可扩展性.实验结果表明,过滤措施具有很好的过滤效果.  相似文献   

14.
在数据库研究领域,模式匹配和实体统一是被广泛关注的两个方向。随着对Web数据集成需求的增长,无论是在模式和实体层次,研究这两方面问题是很有实际意义的。当前的研究大多针对两项任务的其中之一。在文章中,基于模式匹配促进实体统一的新思路,提出了一种同时解决这两项任务的方法,实现了它们之间的相互促进机制。在现实的Web异构数据源场景中应用该方法,得到的查准率和查全率都很高,证明了该方法的正确性和有效性。  相似文献   

15.
实体解析是数据集成的关键方面,也是大数据分析与挖掘的必要预处理步骤.大数据时代,随着查询驱动的数据应用需求的不断增长,查询式实体解析成为热点问题.为了提升查询-解析效率,研究了面向实体缓存的多属性数据索引技术.涉及两个核心问题:(1)如何设计多属性数据索引?设计了基于R-树的多属性索引结构.为了满足实体缓存在线生成需求,提出了基于空间聚类的在线索引构建方法.提出了基于“过滤-验证”的多维查询方法,利用多属性索引有效地过滤掉不可能命中的记录,然后采用相似性函数或距离函数逐一验证候选记录.(2)如何将不同的字符串属性插入到树形索引中?解决思路是,将字符串映射到数值空间.针对Jaccard相似性和编辑相似性,提出了基于q-gram的映射方法,并提出了基于向量降维的优化和基于z-order的优化,实现高质量的“字符串→数值”映射.最后,在两个数据集上进行实验评估,验证多属性索引的有效性,并测试其各个方面.  相似文献   

16.
Li  Bo-Han  Liu  Yi  Zhang  An-Man  Wang  Wen-Huan  Wan  Shuo 《计算机科学技术学报》2020,35(4):769-793
Journal of Computer Science and Technology - Entity resolution (ER) is a significant task in data integration, which aims to detect all entity profiles that correspond to the same real-world...  相似文献   

17.
实体解析用于判断两个数据记录是否描述的是同一实体对象,记录聚合则把所有属于同一实体对象的数据记录进行聚集,建立关联,方便交叉索引.本文基于MapReduce编程模型,提出一种迭代的并行处理框架,采用面向学习的分类方法进行实体解析,根据属性相似的传递性,并结合函数式语言的本身特性,对记录进行高效聚合.相关算法和框架应用于建立医院之间患者标识交叉索引平台,为患者主索引的建立以及信息共享提供依据.实验结果表明,MapReduce编程模型非常适合于实体解析与记录聚合的一体化处理,其编程快捷,运行高效,而且数据分区和并行处理技术避免了大量连接引发的内存溢出问题.  相似文献   

18.
实体解析是指发现并聚合描述现实世界中同一对象的记录。纯粹的机器算法虽然可以获得较高的效率,但是准确率难以保证。提出了一种机器计算与众包相结合的实体解析方法。该方法首先采用MapReduce并行计算框架排除不可能匹配的记录对,减少人类智能任务的数量,然后由人工进行确定性标注。为了支持隐私保护,在众包计算时提出了基于角色的访问控制模型和重要信息隐藏策略。该方法和模型被应用于某医院患者主索引构建平台,实验结果表明,人机结合方法充分利用了机器和人工处理的优势,可以进行高效率和高精度的患者实体解析,并且有效地避免了患者信息的泄漏。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号