首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 112 毫秒
1.
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。  相似文献   

2.
一种基于SOM和PAM的聚类算法   总被引:4,自引:0,他引:4  
张钊  王锁柱  张雨 《计算机应用》2007,27(6):1400-1402
提出了一种基于自组织映射(SOM)算法和围绕中心点的划分(PAM)算法相结合的SOM-PAM聚类算法。该算法首先利用SOM算法对数据集进行“粗聚类”并得到簇数k;然后,根据簇数k再利用PAM算法对“粗聚类”结果进行聚类并得到最终聚类结果。通过实验表明,SOM-PAM算法具有比SOM算法更高的聚类效率和更好的聚类质量。  相似文献   

3.
文本聚类的核心问题是找到一种优化的聚类算法对文本向量进行聚类,是典型的高维数据聚类,提出一种基于自组织神经网络SOM和人工免疫网络aiNet的两阶段文本聚类算法TCBSA。新算法先用SOM神经网络进行聚类,把高维的文本数据映射到二维的平面上,然后再用aiNet对文本聚类。该方法利用SOM神经网络对高维数据降维的优点,克服了人工免疫网络对高维数据的聚类能力差的缺点。仿真实验结果表明该文本聚类算法不仅是可行的,而且具有一定的自适应能力和较好的聚类效果。  相似文献   

4.
提出一种改进的基于潜在语义索引的文本聚类算法。算法引入潜在语义索引理论,改进传统的SOM算法。用潜在语义索引理论表示文本特征向量,挖掘文本中词与词之间隐藏的语义结构关系,从而消除词语之间的相关性,实现特征向量的降维。改进传统的SOM算法的局限性,准确给出聚类类别数目的值。实验结果表明,本算法的聚类效果更好,聚类时间更少。  相似文献   

5.
为解决连续属性值的离散化问题,提出了一种改进的自组织映射( SOM )聚类离散化算法,该算法利用SOM实现初始聚类,界定聚类上限;之后以初始聚类中心为样本,通过层次方法的平衡迭代规约和聚类( BIRCH)层次聚类算法进行二次聚类,解决聚类数虚高问题并确定离散断点集;最后对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据。实验结果表明,该算法在断点集数(轮廓系数提升75%)及离散精度方面(不相容度更近似0)均优于传统SOM聚类离散化算法,可有效解决大样本、高维数据离散化问题。  相似文献   

6.
基于多层空间模糊减法聚类算法的Web数据库安全索引   总被引:1,自引:0,他引:1  
林楠  史苇杭 《计算机科学》2014,41(10):216-219
目前对Web数据库进行索引查询时采用单层文本特征聚类方法,当聚类特征不一致时,存在着非法聚类和非法结果输出的安全问题。提出一种基于多层空间模糊减法聚类的Web数据库安全索引算法,该算法将数据库信息矢量构建成多层矢量自回归空间,把数据流信息聚焦在空间的多层空间模糊聚类中心,采用减法聚类的模糊推理方法构建数据库索引函数,变尺度调整聚类中心向量,搜索索引结果,阻止了邻近数据点非法侵入和非法聚类,实现了Web数据库安全索引。仿真实验表明,该算法能使数据库信息流在多层矢量自回归空间中充分展开,特征匹配度比传统算法显著提高,能有效排除非法数据输出,保证数据库安全索引。  相似文献   

7.
传统的基于身份认证和存取控制的数据库安全机制存在一定的局限性,如无法防止SQL注入、合法用户权限滥用等非法行为,而现存的入侵检测研究多集中在网络和操作系统,由此提出一个基于DBMS的无监督异常检测算法。首先定义了数据库查询的表示方法及其相似度计算方法,其次给出了包括查询聚类、标记和检测三阶段的异常检测算法,最后给出了算法在合成数据中的聚类结果及其在真实数据中检测SQL注入的应用,并讨论了利用数据库索引的扩展算法。  相似文献   

8.
批量构建M+-tree   总被引:1,自引:0,他引:1  
提出了一种新的M^+-tree构造策略一通过批量装载数据静态构造M^+-tree.这种建树方法能够极大地降低索引的构建代价并加快建树速度:又能保证高雏数据良好的聚类特性.同时又提出了一种有效的聚类算法一多步聚类,基于这种聚类构造M^+-tree.实验结果表明,这种建树算法能够保证索引空间的最大利用率.降低建树的代价,同时又能够保证索引的查询效率.  相似文献   

9.
基于核方法可在高维特征空间中完成数据聚类,但缺乏对原输入空间聚类中心及结果的直观刻画.提出一种核自组织映射竞争聚类算法.该算法是利用核的特征,导出SOM算法的获胜神经元及权重更新规则,而竞争学习机制依然保持在原输入空间中,这样既解决了当输入样本分布结构呈高度非线性时,其分类能力下降的问题,而且解决了Donald[1]算法导致的特征空间中的获胜神经元在原始输入空间中的原像不存在,而无法对聚类结果利用可视化技术进行解释的问题.实验结果表明,提出的核自组织映射竞争聚类算法在某些数据集中可以获得比SOM算法更好的结果.  相似文献   

10.
以数据仓库应用为代表的交互式查询分析技术为智能决策提供了支持。随着数据规模的不断增大,准确计算聚合查询结果往往需要全局数据扫描,使得这类查询面临着实时响应能力不足的问题。基于预先抽取的样本数据,复杂聚合查询提供快速的近似答案,在许多场景下是解决该问题的可行方案。分析了分层抽样优于随机抽样的具体条件,提出了一种两阶段分层抽样方法。首先针对业务特征进行分组,每个分组中使用随机抽样方法进行随机抽样,并评估其抽样效果。再针对抽样效果较差的分组,利用自组织特征映射网络(Self-organizing feature mapping,SOM)对数值进行聚类分组,改进其近似查询效果。基于公开数据集和实际电网数据的实验结果表明:本文方法相比于随机抽样、分层随机抽样以及国会抽样算法在相同抽样率下可达到15%的性能提升;与使用K-means、基于密度的聚类算法(Density-based spatial clustering of applications with noise,DBSCAN)等聚类方法相比,自SOM具有较好的近似查询结果。  相似文献   

11.
邢长征  胡权波 《计算机工程》2013,(12):247-250,259
处理倾斜分布特征的数据流聚类算法TDCA存在聚类速度与内存利用率上的不足,且变流速的数据流环境对聚类结果的质量有严重影响。针对上述问题,提出一种数据流聚类算法GR—Stream。采用网格单元作为数据点的聚集形式,以基于R.tree的扩展数据结构作为组织网格单元的索引结构,在此基础上引入剪枝策略,并调整数据点进入树的方式。在真实数据集KDD.CUP99上进行测试,结果表明,与TDCA算法相比,该算法在聚类过程中可以提高40%的访问速度,应用剪枝策略节省至少一半的内存使用量,同时在变流速的数据流环境下将聚类结果的平均纯度保持在90%以上。  相似文献   

12.
We propose a task allocation algorithm that aims at finding an optimal task assignment for any parallel programs on a given machine configuration. The theme of the approach is to traverse a state–space tree that enumerates all possible task assignments. The efficiency of the task allocation algorithm comes from that we apply a pruning rule on each traversed state to check whether traversal of a given sub-tree is required by taking advantage of dominance relation and task clustering heuristics. The pruning rules try to eliminate partial assignments that violate the clustering of tasks, but still keeping some optimal assignments in the future search space. In contrast to previous state–space searching methods for task allocation, the proposed pruning rules significantly reduce the time and space required to obtain an optimal assignment and lead the traversal to a near optimal assignment in a small number of states. Experimental evaluation shows that the pruning rules make the state–space searching approach feasible for practical use.  相似文献   

13.
Clustering on large databases has been studied actively as an increasing number of applications involve huge amount of data. In this paper, we propose an efficient top-down approach for density-based clustering, which is based on the density information stored in index nodes of a multidimensional index. We first provide a formal definition of the cluster based on the concept of region contrast partition. Based on this notion, we propose a novel top-down clustering algorithm, which improves the efficiency through branch-and-bound pruning. For this pruning, we present a technique for determining the bounds based on sparse and dense internal regions and formally prove the correctness of the bounds. Experimental results show that the proposed method reduces the elapsed time by up to 96 times compared with that of BIRCH, which is a well-known clustering method. The results also show that the performance improvement becomes more marked as the size of the database increases.  相似文献   

14.
障碍空间中不确定数据聚类算法   总被引:2,自引:0,他引:2  
近些年,由于数据采集的不精确和数据本身的不确定性,使不确定性在位置数据中普通存在。在障碍空间中,聚类不确定数据面临新的挑战。提出了障碍空间中聚类不确定数据的OBS-UK-means(obstacle uncertain K-means)算法,并提出了分别基于R树和Voronoi图的两种剪枝策略和最近距离区域的概念,大大减少了计算量。通过实验验证了OBS-UK-means算法的高效性和准确性,同时证明了剪枝策略在不损害聚类有效性的情况下,能够有效地提高聚类效率。  相似文献   

15.
This paper generalizes the learning strategy of version space to manage noisy and uncertain training data. A new learning algorithm is proposed that consists of two main phases: searching and pruning. The searching phase generates and collects possible candidates into a large set; the pruning then prunes this set according to various criteria to find a maximally consistent version space. When the training instances cannot completely be classified, the proposed learning algorithm can make a trade-off between including positive training instances and excluding negative ones according to the requirements of different application domains. Furthermore, suitable pruning parameters are chosen according to a given time limit, so the algorithm can also make a trade-off between time complexity and accuracy. The proposed learning algorithm is then a flexible and efficient induction method that makes the version space learning strategy more practical  相似文献   

16.
现有的大多数孤立点检测算法都需要预先设定孤立点个数,并且还缺乏对不均匀数据集的检测能力。针对以上问题,提出了基于聚类的两段式孤立点检测算法,该算法首先用DBSCAN聚类算法产生可疑孤立点集合,然后利用剪枝策略对数据集进行剪枝,并用基于改进距离的孤立点检测算法产生最可能孤立点排序集合,最终由两个集合的交集确定孤立点集合。该算法不必预先设定孤立点个数,具有较高的准确率与检测效率,并且对数据集的分布状况不敏感。数据集上的实验结果表明,该算法能够高效、准确地识别孤立点。  相似文献   

17.
基于粒子群优化的高斯核函数聚类算法   总被引:2,自引:1,他引:1  
于进  钱锋 《计算机工程》2010,36(14):22-23
针对视频帧数据在时间轴上的高斯分布特征,提出基于样本和高斯核相似性度量的聚类算法,采用度量方法考虑概率分布密度因素,同时利用改进的粒子群优化算法加速聚类过程。实验结果表明,与基于C均值聚类算法相比,该算法具有较强的全局搜索能力和聚类精度,在视频数据聚类分析中具有更高的效率和更佳的聚类效果。  相似文献   

18.
改进的遗传模糊聚类算法对医学图像的分割   总被引:1,自引:0,他引:1  
利用遗传算法全局随机搜索的特点,可以解决模糊C均值聚类(FCM)算法在医学图像分割中容易陷入局部最优解的问题,但确定遗传算法的初始搜索范围时,需要借助于人的经验。为此,用收敛速度快的硬聚类算法得到的聚类中心作为参考,上下浮动划出一个较小的数据范围,作为遗传算法的初始搜索空间。该方法在避免FCM算法陷入局部最优化的同时,也加速了遗传算法的收敛过程。实验表明,该方法相对于标准的遗传模糊算法,效果要好得多。  相似文献   

19.
在LDOF算法的基础上,提出一种基于多重聚类的离群点检测算法PMLDOF。该算法针对局部离群度量计算量大的缺点,采用聚类剪枝技术作为减少计算量的方法;同时,为了避免将位于簇边缘的离群点错剪,算法利用多重聚类的差异性对簇的边缘点进行筛选。在对数据集进行剪枝后,计算剩余数据的局部离群度LDOF,并找出符合条件的离群数据点。实验结果表明,算法在时间复杂度和检测精度上具有更好的优越性。  相似文献   

20.
基于近似网页聚类的智能搜索系统   总被引:1,自引:1,他引:1  
从Internet用户的兴趣度出发,设计了一种基于近似网页聚类的智能搜索系统。该系统在用户利用常用搜索引擎系统进行信息检索时,消除搜索引擎返回的重复页,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;实验证明该系统在保证查全率和查准率的基础上大大提高了搜索效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号