首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 343 毫秒
1.
一种用于Web搜索的高效聚类算法   总被引:1,自引:0,他引:1  
李新叶  苑津莎 《计算机工程》2006,32(20):38-39,7
根据搜索引擎的用户查询日志库信息对用户访问模式聚类算法进行了研究,说明了用雅可比系数及加权相似性度量公式实现用户访问模式聚类的不足,提出了一种改进的Hamming距离公式,运用距离测度法实现用户访问模式聚类,给出了聚类算法。对算法的分析表明,基于偶图和改进Hamming距离公式的算法是准确和高效的。  相似文献   

2.
针对Web使用挖掘中聚类结果准确性不高的问题,提出了一种改进的基于相对Hamming距离和类不一致度的聚类算法。该算法首先以Web站点的URL为行、以UserID为列建立关联矩阵,元素值为用户的访问次数;然后,对所建立关联矩阵的列向量或行向量进行相似性度量,获得相似客户群体或相关页面。实验表明,该算法具有较高的准确性。  相似文献   

3.
改进层次聚类算法在文献分析中的应用   总被引:1,自引:0,他引:1  
科技文献代表了科技发展的方向,对其分析有助于准确把握科技前沿.本文提出一种基于层次聚类的改进算法用于对科技文献进行聚类研究,以便识别科技文献所关注的创新设计方向.该算法通过观测不同距离条件下孤立点数目的变化情况,自动计算并判断层次聚类算法中所需的聚类终止条件.这样既避免了层次聚类算法中需要预先输入终止条件的不足,又保持了层次聚类算法聚类精度高的优点,且改进算法的复杂度和普通层次聚类算法的一致.运用上述改进算法对200篇文献进行聚类运算,与k-means算法的对比实验证明,改进层次聚类算法聚类效果良好,从而验证了该算法的可行性.  相似文献   

4.
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进.新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得到较优的聚类结果.通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度.  相似文献   

5.
谱聚类算法受到度量中尺度因子的影响,同时传统谱聚类算法通过欧氏距离度量样本间相似性也不准确。针对上述问题,提出一种基于传递距离的谱聚类算法。算法首先通过改进传统谱聚类中的度量方式,用基于传递距离的度量方式度量样本间相似性,并构建传递矩阵,接着用传递矩阵做相似度变换构建拉普拉斯矩阵,最终通过求特征值和特征向量完成聚类。基于传递距离的谱聚类算法在人工数据集及UCI数据集上均取得了良好的聚类结果,具有较好的鲁棒性和有效性。  相似文献   

6.
王刚  钟国祥 《计算机科学》2010,37(9):222-224
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类缺少涉及概念的内涵及概念间的联系,提出了一种基于本体相似度计算的文本聚类算法TCBO(Text Clustering Based on Ontology).该算法把文档用本体来刻画,以便描述概念的内涵及概念间的联系.设计和改进了文本相似度计算算法,应用本体的语义相似度来度量文档间相近程度,设计了具体的根据相似度进行文本聚类的算法.实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量.  相似文献   

7.
首先对于支持向量聚类中的聚类形成算法做了一定的改进,对于网络连接数据的异构性,提出了采用基于相似度异构距离度量(SHVDM)的核函数方法,以弥补欧式距离在这方面的不足;最后将改进支持向量聚类算法应用于网络入侵检测系统(NIDS),对比于改进前算法及广泛应用的其他聚类算法,实验结果表明改进的算法综合效果好,适应性强,具有一定的理论意义.  相似文献   

8.
文本聚类是文本信息进行有效组织、摘要和导航的重要手段,其中基于余弦相似度的K-means算法是最重要且使用最广泛的文本聚类算法之一。针对基于余弦相似度的K-means算法改进方案设计困难,且众多优异的基于欧氏距离的K-means改进方法无法适用的问题,对余弦相似度与欧氏距离的关系进行探讨,得到标准向量前提下二者的转化公式,并在此基础上定义一种与欧氏距离意义相近关系紧密的余弦距离,使原有基于欧氏距离的K-means改进方法可通过余弦距离迁移到基于余弦相似度的K-means算法中。在此基础上理论推导出余弦K-means算法及其拓展算法的簇内中心点计算方法,并进一步改进了聚类初始簇中心的选取方案,形成新的文本聚类算法MCSKM++。通过实验验证,该算法在迭代次数减少、运行时间缩短的同时,聚类精度得到提高。  相似文献   

9.
目的 为了进一步提高噪声图像分割的抗噪性和准确性,提出一种结合类内距离和类间距离的改进可能聚类算法并将其应用于图像分割。方法 该算法避免了传统可能性聚类分割算法中仅仅考虑以样本点到聚类中心的距离作为算法的测度,将类内距离与类间距离相结合作为算法的新测度,即考虑了类内紧密程度又考虑了类间离散程度,以便对不同的聚类结构有较强的稳定性和更好的抗噪能力,并且将直方图融入可能模糊聚类分割算法中提出快速可能模糊聚类分割算法,使其对各种较复杂图像的分割具有即时性。结果 通过人工合成图像和实际遥感图像分割测试结果表明,本文改进可能聚类算法是有效的,其分割轮廓清晰,分类准确且噪声较小,其误分率相比其他算法至少降低了2个百分点,同时能获得更满意的分割效果。结论 针对模糊C-均值聚类分割算法和可能性聚类分割算法对于背景和目标颜色相近的图像分类不准确的缺陷,将类内距离与类间距离相结合作为算法的测度有效的解决了图像分割归类问题,并且结合直方图提出快速可能模糊聚类分割算法使其对于大篇幅复杂图像也具有适用性。  相似文献   

10.
一种改进的K均值文本聚类算法   总被引:1,自引:0,他引:1  
提出了一种改进的K均值文本聚类算法.该算法的改进基于以下两点:1)基于簇密度与文本间距离选取初始簇中心,引入置信半径来得到簇密度,即选取距离最远且簇密度最大的点为初始簇中心;2)基于权重的海明距离来计算文本相似度,同时采用轮廓系数来衡量不同算法的聚类质量.实验结果表明:该算法相比原始的K均值文本聚类算法和文献[1]中算法具有更好的聚类质量.  相似文献   

11.
提出一种判定逻辑函数是否适于双逻辑实现的探测算法,直接从XOR逻辑的特点出发,即2个汉明距离为2 的最小项可以由 XOR 逻辑表示.通过计算函数最小项之间的汉明距离分析其所具有的逻辑模式,给出探测适用于双逻辑实现的判断条件.该算法已用 C 语言实现,并应用于 MCNC benchmark 电路的判定测试,实验结果验证了其有效性.  相似文献   

12.
Recently, hesitant fuzzy sets (HFSs) have been studied by many researchers as a powerful tool to describe and deal with uncertain data, but relatively, very few studies focus on the clustering analysis of HFSs. In this paper, we propose a novel hesitant fuzzy agglomerative hierarchical clustering algorithm for HFSs. The algorithm considers each of the given HFSs as a unique cluster in the first stage, and then compares each pair of the HFSs by utilising the weighted Hamming distance or the weighted Euclidean distance. The two clusters with smaller distance are jointed. The procedure is then repeated time and again until the desirable number of clusters is achieved. Moreover, we extend the algorithm to cluster the interval-valued hesitant fuzzy sets, and finally illustrate the effectiveness of our clustering algorithms by experimental results.  相似文献   

13.
Although the distance between binary codes can be computed fast in Hamming space, linear search is not practical for large scale datasets. Therefore attention has been paid to the efficiency of performing approximate nearest neighbor search, in which hierarchical clustering trees (HCT) are widely used. However, HCT select cluster centers randomly and build indexes with the entire binary code, this degrades search performance. In this paper, we first propose a new clustering algorithm, which chooses cluster centers on the basis of relative distances and uses a more homogeneous partition of the dataset than HCT has to build the hierarchical clustering trees. Then, we present an algorithm to compress binary codes by extracting distinctive bits according to the standard deviation of each bit. Consequently, a new index is proposed using compressed binary codes based on hierarchical decomposition of binary spaces. Experiments conducted on reference datasets and a dataset of one billion binary codes demonstrate the effectiveness and efficiency of our method.  相似文献   

14.
曹江中  戴青云  何家峰  方骥 《计算机工程》2006,32(9):199-200,205
该算法基干虹膜纹理的分布特点,将虹膜分成若干带,用Gabor滤波器对每带进行滤波编码,用各带Hamming距离的加权和来判决虹膜的匹配。与一些常规的算法相比,该算法充分考虑了不同区域的纹理特征对虹膜匹配贡献不同的特点,能有效地增大虹膜的类间距,利于进一步减少误识率和拒识率。该文给出了对CASIA虹膜库测试的数据,结果表明该算法是有效的和可行的。该算法已在一些场所的认证系统中试用,效果较理想。  相似文献   

15.
最小海明距离是DNA计算编码性能的重要评价标准。利用线性码来构造DNA计算编码的最小海明距离是一种有效的方法,关键在于构造相应的监督矩阵。为了寻找监督矩阵,提出了监督矩阵的搜索算法和优化方法,及两个必要性定理;作为介于最小海明距离上限与下限之间的编码存在性的判断依据,给出了两个关于线性码存在性定理;最后给出了三字母表DNA计算编码相关的监督矩阵搜索算法结果,以及当最小海明距离一定时,接近编码数量上限的部分线性码的存在性结果。根据这些结果和存在性定理,可以推断常用DNA计算编码最小海明距离的存在性。  相似文献   

16.
针对数据竞争聚类算法在处理复杂结构数据集时聚类性能不佳的问题,提出了一种密度敏感的数据竞争聚类算法。首先,在密度敏感距离测度的基础上定义了局部距离,以描述数据分布的局部一致性;其次,在局部距离的基础上计算出数据间的全局距离,用来描述数据分布的全局一致性,挖掘数据的空间分布信息,以弥补欧氏距离描述数据分布全局一致性能力不佳的缺陷;最后,将全局距离用于数据竞争聚类算法中。将新算法与基于欧氏距离的数据竞争聚类算法进行性能比较,在人工数据集和真实数据集上的实验结果表明,该算法克服了数据竞争聚类算法难以处理复杂结构数据的缺点,聚类结果具有更高的准确率。  相似文献   

17.
为提高多目标进化算法的分布性和收敛性,提出一种基于海明距离差异的多目标进化算法。在非支配前沿的基础上定义海明等级,依据海明距离的大小对个体进行选择操作。同时结合海明差异和Pareto评价方法,对外部存储器中最优解进行更新和维护,通过结构相似度构建小生境空间,并引导算法趋向Pareto最优前沿面。对6个典型函数的测试结果表明,较其他对比算法,该算法在具备收敛性的同时能够保持较好的均匀性分布。  相似文献   

18.
X3SAT最大海明距离问题是指对于一个X3SAT问题实例,寻找该问题的任意两组可满足赋值之间的最大海明距离。提出了一个基于DPLL的精确算法HMX来求解X3SAT最大海明距离问题,根据公式中某个变量在两组真值赋值中的不同取值进行分支。给出了多种化简规则,这些规则很好地提高了算法的时间效率。证明了该算法可以将X3SAT最大海明距离问题的最小上界由目前最好的O(1.7107n)缩小到O(1.6760n),其中n为公式中变量的数目。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号