共查询到20条相似文献,搜索用时 112 毫秒
1.
2.
3.
文本聚类的核心问题是找到一种优化的聚类算法对文本向量进行聚类,是典型的高维数据聚类,提出一种基于自组织神经网络SOM和人工免疫网络aiNet的两阶段文本聚类算法TCBSA。新算法先用SOM神经网络进行聚类,把高维的文本数据映射到二维的平面上,然后再用aiNet对文本聚类。该方法利用SOM神经网络对高维数据降维的优点,克服了人工免疫网络对高维数据的聚类能力差的缺点。仿真实验结果表明该文本聚类算法不仅是可行的,而且具有一定的自适应能力和较好的聚类效果。 相似文献
4.
提出一种改进的基于潜在语义索引的文本聚类算法。算法引入潜在语义索引理论,改进传统的SOM算法。用潜在语义索引理论表示文本特征向量,挖掘文本中词与词之间隐藏的语义结构关系,从而消除词语之间的相关性,实现特征向量的降维。改进传统的SOM算法的局限性,准确给出聚类类别数目的值。实验结果表明,本算法的聚类效果更好,聚类时间更少。 相似文献
5.
为解决连续属性值的离散化问题,提出了一种改进的自组织映射( SOM )聚类离散化算法,该算法利用SOM实现初始聚类,界定聚类上限;之后以初始聚类中心为样本,通过层次方法的平衡迭代规约和聚类( BIRCH)层次聚类算法进行二次聚类,解决聚类数虚高问题并确定离散断点集;最后对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据。实验结果表明,该算法在断点集数(轮廓系数提升75%)及离散精度方面(不相容度更近似0)均优于传统SOM聚类离散化算法,可有效解决大样本、高维数据离散化问题。 相似文献
6.
基于多层空间模糊减法聚类算法的Web数据库安全索引 总被引:1,自引:0,他引:1
目前对Web数据库进行索引查询时采用单层文本特征聚类方法,当聚类特征不一致时,存在着非法聚类和非法结果输出的安全问题。提出一种基于多层空间模糊减法聚类的Web数据库安全索引算法,该算法将数据库信息矢量构建成多层矢量自回归空间,把数据流信息聚焦在空间的多层空间模糊聚类中心,采用减法聚类的模糊推理方法构建数据库索引函数,变尺度调整聚类中心向量,搜索索引结果,阻止了邻近数据点非法侵入和非法聚类,实现了Web数据库安全索引。仿真实验表明,该算法能使数据库信息流在多层矢量自回归空间中充分展开,特征匹配度比传统算法显著提高,能有效排除非法数据输出,保证数据库安全索引。 相似文献
7.
8.
批量构建M+-tree 总被引:1,自引:0,他引:1
提出了一种新的M^+-tree构造策略一通过批量装载数据静态构造M^+-tree.这种建树方法能够极大地降低索引的构建代价并加快建树速度:又能保证高雏数据良好的聚类特性.同时又提出了一种有效的聚类算法一多步聚类,基于这种聚类构造M^+-tree.实验结果表明,这种建树算法能够保证索引空间的最大利用率.降低建树的代价,同时又能够保证索引的查询效率. 相似文献
9.
基于核方法可在高维特征空间中完成数据聚类,但缺乏对原输入空间聚类中心及结果的直观刻画.提出一种核自组织映射竞争聚类算法.该算法是利用核的特征,导出SOM算法的获胜神经元及权重更新规则,而竞争学习机制依然保持在原输入空间中,这样既解决了当输入样本分布结构呈高度非线性时,其分类能力下降的问题,而且解决了Donald[1]算法导致的特征空间中的获胜神经元在原始输入空间中的原像不存在,而无法对聚类结果利用可视化技术进行解释的问题.实验结果表明,提出的核自组织映射竞争聚类算法在某些数据集中可以获得比SOM算法更好的结果. 相似文献
10.
以数据仓库应用为代表的交互式查询分析技术为智能决策提供了支持。随着数据规模的不断增大,准确计算聚合查询结果往往需要全局数据扫描,使得这类查询面临着实时响应能力不足的问题。基于预先抽取的样本数据,复杂聚合查询提供快速的近似答案,在许多场景下是解决该问题的可行方案。分析了分层抽样优于随机抽样的具体条件,提出了一种两阶段分层抽样方法。首先针对业务特征进行分组,每个分组中使用随机抽样方法进行随机抽样,并评估其抽样效果。再针对抽样效果较差的分组,利用自组织特征映射网络(Self-organizing feature mapping,SOM)对数值进行聚类分组,改进其近似查询效果。基于公开数据集和实际电网数据的实验结果表明:本文方法相比于随机抽样、分层随机抽样以及国会抽样算法在相同抽样率下可达到15%的性能提升;与使用K-means、基于密度的聚类算法(Density-based spatial clustering of applications with noise,DBSCAN)等聚类方法相比,自SOM具有较好的近似查询结果。 相似文献
11.
处理倾斜分布特征的数据流聚类算法TDCA存在聚类速度与内存利用率上的不足,且变流速的数据流环境对聚类结果的质量有严重影响。针对上述问题,提出一种数据流聚类算法GR—Stream。采用网格单元作为数据点的聚集形式,以基于R.tree的扩展数据结构作为组织网格单元的索引结构,在此基础上引入剪枝策略,并调整数据点进入树的方式。在真实数据集KDD.CUP99上进行测试,结果表明,与TDCA算法相比,该算法在聚类过程中可以提高40%的访问速度,应用剪枝策略节省至少一半的内存使用量,同时在变流速的数据流环境下将聚类结果的平均纯度保持在90%以上。 相似文献
12.
《Journal of Parallel and Distributed Computing》2004,64(11):1223-1240
We propose a task allocation algorithm that aims at finding an optimal task assignment for any parallel programs on a given machine configuration. The theme of the approach is to traverse a state–space tree that enumerates all possible task assignments. The efficiency of the task allocation algorithm comes from that we apply a pruning rule on each traversed state to check whether traversal of a given sub-tree is required by taking advantage of dominance relation and task clustering heuristics. The pruning rules try to eliminate partial assignments that violate the clustering of tasks, but still keeping some optimal assignments in the future search space. In contrast to previous state–space searching methods for task allocation, the proposed pruning rules significantly reduce the time and space required to obtain an optimal assignment and lead the traversal to a near optimal assignment in a small number of states. Experimental evaluation shows that the pruning rules make the state–space searching approach feasible for practical use. 相似文献
13.
《Journal of Systems and Software》2004,73(1):169-180
Clustering on large databases has been studied actively as an increasing number of applications involve huge amount of data. In this paper, we propose an efficient top-down approach for density-based clustering, which is based on the density information stored in index nodes of a multidimensional index. We first provide a formal definition of the cluster based on the concept of region contrast partition. Based on this notion, we propose a novel top-down clustering algorithm, which improves the efficiency through branch-and-bound pruning. For this pruning, we present a technique for determining the bounds based on sparse and dense internal regions and formally prove the correctness of the bounds. Experimental results show that the proposed method reduces the elapsed time by up to 96 times compared with that of BIRCH, which is a well-known clustering method. The results also show that the performance improvement becomes more marked as the size of the database increases. 相似文献
14.
障碍空间中不确定数据聚类算法 总被引:2,自引:0,他引:2
近些年,由于数据采集的不精确和数据本身的不确定性,使不确定性在位置数据中普通存在。在障碍空间中,聚类不确定数据面临新的挑战。提出了障碍空间中聚类不确定数据的OBS-UK-means(obstacle uncertain K-means)算法,并提出了分别基于R树和Voronoi图的两种剪枝策略和最近距离区域的概念,大大减少了计算量。通过实验验证了OBS-UK-means算法的高效性和准确性,同时证明了剪枝策略在不损害聚类有效性的情况下,能够有效地提高聚类效率。 相似文献
15.
Tzung-Pai Hong Shian-Shyong Tsang 《Knowledge and Data Engineering, IEEE Transactions on》1997,9(2):336-340
This paper generalizes the learning strategy of version space to manage noisy and uncertain training data. A new learning algorithm is proposed that consists of two main phases: searching and pruning. The searching phase generates and collects possible candidates into a large set; the pruning then prunes this set according to various criteria to find a maximally consistent version space. When the training instances cannot completely be classified, the proposed learning algorithm can make a trade-off between including positive training instances and excluding negative ones according to the requirements of different application domains. Furthermore, suitable pruning parameters are chosen according to a given time limit, so the algorithm can also make a trade-off between time complexity and accuracy. The proposed learning algorithm is then a flexible and efficient induction method that makes the version space learning strategy more practical 相似文献
16.
现有的大多数孤立点检测算法都需要预先设定孤立点个数,并且还缺乏对不均匀数据集的检测能力。针对以上问题,提出了基于聚类的两段式孤立点检测算法,该算法首先用DBSCAN聚类算法产生可疑孤立点集合,然后利用剪枝策略对数据集进行剪枝,并用基于改进距离的孤立点检测算法产生最可能孤立点排序集合,最终由两个集合的交集确定孤立点集合。该算法不必预先设定孤立点个数,具有较高的准确率与检测效率,并且对数据集的分布状况不敏感。数据集上的实验结果表明,该算法能够高效、准确地识别孤立点。 相似文献
17.
基于粒子群优化的高斯核函数聚类算法 总被引:2,自引:1,他引:1
针对视频帧数据在时间轴上的高斯分布特征,提出基于样本和高斯核相似性度量的聚类算法,采用度量方法考虑概率分布密度因素,同时利用改进的粒子群优化算法加速聚类过程。实验结果表明,与基于C均值聚类算法相比,该算法具有较强的全局搜索能力和聚类精度,在视频数据聚类分析中具有更高的效率和更佳的聚类效果。 相似文献
18.
改进的遗传模糊聚类算法对医学图像的分割 总被引:1,自引:0,他引:1
利用遗传算法全局随机搜索的特点,可以解决模糊C均值聚类(FCM)算法在医学图像分割中容易陷入局部最优解的问题,但确定遗传算法的初始搜索范围时,需要借助于人的经验。为此,用收敛速度快的硬聚类算法得到的聚类中心作为参考,上下浮动划出一个较小的数据范围,作为遗传算法的初始搜索空间。该方法在避免FCM算法陷入局部最优化的同时,也加速了遗传算法的收敛过程。实验表明,该方法相对于标准的遗传模糊算法,效果要好得多。 相似文献
19.