共查询到19条相似文献,搜索用时 62 毫秒
1.
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model, GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。 相似文献
2.
3.
空间聚类一直是空间数据挖掘研究的热点之一。现有的聚类方法大都局限于根据空间位置来进行空间聚类的,忽略了空间对象的专题属性,从而导致空间聚类结果有时完全不符合人的空间认知,缺乏合理的解释。为此,综合考虑空间对象的位置和专题属性,提出了一种基于概念格的空间聚类(Concept Lattices BasedSpatial Cluster,CLBSC)方法。该方法通过构建多维专题属性的概念格,简化了空间聚类计算。最后,通过两组实验对CLBSC算法进行了验证分析,研究结果表明:所提出的CLBSC算法是一种具有高可靠性和抗噪性的空间聚类算法。 相似文献
4.
一种基于自动阈值发现的文本聚类方法 总被引:12,自引:0,他引:12
文本聚类随着网上文本的激增以及实际应用中的需求,引起了人们越来越多的重视.通过分析文本的特征以及常用的文本聚类方法,提出了一种对文本进行细致划分获取细化簇、并在细化簇基础上进行聚类的文本聚类方法.在聚类过程中,采用曲线的多项式拟合技术提出了一种自动发现阈值的方法,并把该方法应用于细化簇的寻找步骤中.与凝聚的层次聚类方法的实验比较结果表明,使用自动阈值发现的方法在时间消耗、聚类效果、以及对孤立点的容忍性方面都具有更优的性能. 相似文献
5.
一种基于概念的数据聚类模型 总被引:2,自引:0,他引:2
在数据挖掘研究领域,现有的大多数聚类算法都受到数据可伸缩性和结果可解释性的限制.为了解决这一难题,提出了一种基于概念的数据聚类模型.该模型从描述数据样本的数据本身出发,首先在预处理后的数据集上提取基本概念,再对这些概念进行概化,形成表示聚类结果的高层概念,最后基于这些高层概念进行样本划分,从而完成整个聚类过程.该模型能够在保证聚类准确性的基础上,很大程度地减少要处理的数据量,提高原算法的可伸缩性.另外,该模型基于概念进行知识的发现与分析,能够提高聚类结果的可解释性,便于与用户交互.实验结果表明,该模型对于聚类结果较好且复杂度较高的算法尤为有效. 相似文献
6.
一种基于引力的聚类方法 总被引:8,自引:1,他引:8
将万有引力的思想引入聚类分析中,提出了一种基于引力的聚类方法GCA(Gravitybased Clustering Approach),同时给出了一种计算聚类阈值的简单而有效的方法。GCA关于数据库的大小和属性个数具有近似线性时间复杂度,这使得聚类方法GCA具有好的扩展性。实验结果表明GCA可产生高质量的聚类结果。 相似文献
7.
8.
针对传统的基于网格密度的数据流聚类方法丢失数据的空间位置特性的缺陷,提出了一种基于质量估算(mass estimation)的空间数据流聚类方法。通过 树进行空间划分,可将到达数据映射到不同的划分区域,在树得到质量(mass)的基础上,进行各子区域的密度推算的同时引入衰减因子,以及在线动态维护微簇,可精确反映空间数据流的演化信息。该方法在真实数据与模拟数据的综合试验中验证了算法的聚类效果与高效率性,并通过与传统数据流聚类算法的对比,进一步体现出其在聚类效果上的优势。该方法能够在保证较低的时间复杂度的基础上,更好的保留了数据的空间位置特性,因而能够更好的适应空间数据流聚类的需求。 相似文献
9.
10.
实践证明聚类技术是改进搜索结果显示方式的一种有效手段。然而,目前的聚类方法没有考虑到用户兴趣,对于相同的查询,返回给所有用户同样的聚类结果。由此提出一种个性化聚类检索方法。该方法改进了k-means算法,利用该算法对传统搜索引擎返回的结果结合用户兴趣进行聚类,返回针对特定用户的网页簇。实验证明该方法能够提供个性化服务,改善了聚类的效果,提高了用户的检索效率。 相似文献
11.
基于概念空间的文本检索系统 总被引:10,自引:3,他引:10
当前信息检索存在着信息过载和词汇不匹配的问题。文章提出了一种新的检索方式缓解这两个问题。这种检索方法在文本聚类的基础上,基于概念空间并与传统的关键词检索相结合能够帮助用户快速、准确地定位所需要查找的信息。文章将对这种检索方式进行介绍,并且着重介绍利用共现分析以及Hopfield网络生成概念空间。 相似文献
12.
基于模糊概念网络的信息检索模型研究 总被引:1,自引:0,他引:1
提出一种基于模糊概念网络的信息检索模型,模型采用自学习算法完成模糊概念网络的自动构建,实现基于概念的信息检索。性能测试实验的结果表明:提出的检索模型具有较好的性能。 相似文献
13.
14.
15.
基于统计语言模型的信息检索 总被引:4,自引:0,他引:4
本文对基于统计语言模型的信息检索进行了综述,介绍了目前基于统计语言模型信息检索中比较有代表性的模型,给出了语言模型估计中常用的几种平滑技术,将语言模型同目前流行信息检索模型进行了比较,在此基础上,指出了基于统计语言模型信息检索的研究方向。 相似文献
16.
基于多层向量空间模型的Web信息检索方法 总被引:1,自引:0,他引:1
针对Web信息检索的特点,在分析传统向量空间模型存在问题的基础上,提出了一种多层向量空间模型。该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段。按照不同位置的文本段确定相应的索引项权重,并给出了该模型的相似度计算方法。实验表明,将该模型应用于Web信息检索中,具有对输出结果的排序能力强、查询速度快等优点。 相似文献
17.
关键词检索方式是一种以词汇控制为主流控制方式的主题检索方式,它的致命不足是"字面匹配";概念控制仍属于词汇控制的范畴,只是用概念的相交、概念的匹配等逻辑方法实现的语义匹配取代传统的字面匹配。如何将检索从关键词层面提高到知识(或概念)层面,是目前情报信息检索领域研究的一个热点。文章通过对概念检索、语义检索以及两者之间关系的阐述,说明了如何实现自然语言检索中的概念语义控制,从而能够从概念语义层面上来认识和处理用户的检索需求。 相似文献
18.
一种基于颜色统计聚类的医学图像检索技术 总被引:1,自引:1,他引:1
基于颜色检索的基本思想是将图像间的距离归结为其颜色直方图间的相似性度量,从而图像检索也就转化为颜色直方图的匹配。目前基于颜色检索的算法主要集中在不同颜色空间进行全局颜色聚类或融合其他可视特征(纹理,颜色空间信息等)联合检索两个方向上。该文在具体的结肠镜图像检索系统研究中,根据医学图像的特点,提出一种在HSV空间的颜色统计聚类的检索方法,取得了良好的检索效果。 相似文献
19.
提出了一种改进的基于颜色感知特征和图象检索方法。这种方法采用符合人类视觉特征的HSV颜色空间来表示图象的颜色特性,利用人对颜色的感知来对颜色分量进行等间隔的量化工形成特征矢量,用直方图交叉算法进行图象的匹配。用户可以通过示例方式,指定颜色或指定区域来表示查询的视觉要求。 相似文献