首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
将灰色关联分析应用于小麦病害的案例推理中,提出采用灰色综合关联度作为案例的相似性度量指标,改进了距离相似性度量的缺陷;同时在案例检索中考虑了特征参数对案例检索的重要性程度的不同,通过定义权重向量解决非关键指标对案例判断的干扰问题.基于灰色关联分析的案例推理诊断效率高,易于理解.通过测试,该方法平均诊断正确率为82.5%.  相似文献   

2.
针对密文的相似性度量问题,提出了一种新的密文文本相似性度量方法。该方法通过定义关键词的有效作用域、相对作用域、分散域的概念,有效克服了现有的关键词权重量化方法不能对篇幅不同、结构不同的文档进行相对公平的关键词权重量化的不足,同时显著减少了文本度量时所依赖的关键词数量。进一步对文档的关键词进行重提取,并建立文档的关键词密文索引条目,通过密文的索引条目来度量密文的相似性。将该方法在真实文档上进行实验,并同其它算法进行比较,结果表明所提出的方法在准确率和召回率两方面优于其它参与比较的算法,并能在准确率和召回率之间取得比较好的平衡。  相似文献   

3.
随着工程测量和工业控制的发展,在多样的工程测量环境和工业控制环境中选择合适的测量和控制理论、方法和技术也将成为难题,推荐技术的引入可以提升工程测量的的自动化程度和工业控制的实时性。但是推荐系统中经典的相似性度量方法在数据稀疏的情况下处理能力较弱,影响了推荐的准确性。针对这一问题,将杰卡徳相似系数加以修正,并利用杰卡德相似系数能够衡量两个集合的相似度的特点,将修正后的杰卡德相似系数作为权重系数,对经典的相似性度量方法加以修正,得到新的相似性度量方法。选取5个测评指标,分别在基于用户和基于项目的协同过滤推荐算法中,对经典的相似性度量方法和改进的相似性度量方法进行测试。对比实验表明,改进的相似性度量方法表现优于传统的相似性度量方法,提升比例约为20%。  相似文献   

4.
针对第一次全国水利普查数据融合存在的问题,提出自适应编辑距离相似性度量,通过调整编辑操作权重及启发式学习权重等措施,对传统的编辑距离进行改进,提高相似性搜索的准确性,并给出基于编辑距离的水利普查数据融合的方法和流程,算法的有效性在第一次全国水利普查数据处理中得到验证。  相似文献   

5.
聚类与自适应波段选择结合的高光谱图像降维   总被引:1,自引:0,他引:1  
针对自适应波段选择法(adaptive band selection,ABS)对高光谱图像降维后得到的最优波段子集用于地物目标分类处理时,分类精度不理想的问题,提出一种K-means聚类与ABS结合的高光谱图像降维方法。算法采用K-means聚类算法对所有波段进行聚类,聚类中分别采用相关系数和欧氏距离2种相似性度量,选取各聚类中ABS指数最大的波段,作为最优波段子集。通过实验,将所提方法与ABS进行分类精度比较。实验结果表明,所提方法在分类精度上优于ABS法,以相关系数作为相似性度量的K-means聚类与ABS结合的降维方法分类效果更好。  相似文献   

6.
《计算机科学与探索》2017,(10):1629-1641
集对分析作为处理系统确定性与不确定性相互作用的数学理论,可用来处理存在不确定关系的复杂社会网络。首先,应用集对分析理论,将社会网络作为一个同异反系统(确定不确定系统),采用集对联系度刻画顶点间的同异反关系,综合考虑顶点的局部特征和拓扑结构对顶点相似性的贡献,提出加权聚集系数联系度的顶点间相似性度量方法。该度量方法可以更好地刻画网络结构特征,克服传统局部相似性度量指标对某些顶点间相似性值的低估,降低全局相似性度量指标的计算复杂度。其次,为了将该相似性度量指标应用于社区发现,与凝聚型层次聚类算法相结合,使其适用于具有相似性度量对象的复杂网络社区发现问题。最后,在社会网络上进行社区挖掘实验,并与经典社区发现算法进行比较,实验结果表明了该相似性度量指标的正确性及有效性。  相似文献   

7.
针对PathSim算法只能度量异构网络同类节点和预设元路径的问题,提出可度量任意类型节点的加权融合元路径的相似性度量算法Multi-WPathSim.基于随机游走与CBOW模型进行元路径的表示学习,获得路径集合及权重,在元路径融合算法的基础上进行相似性度量,解决PathSim算法需要预设元路径的不足,通过双向游走克服P...  相似文献   

8.
魏国强  周从华  张婷 《计算机与数字工程》2021,49(11):2299-2304,2406
针对常用方法无法准确度量多元时间序列相似程度的问题,提出一种基于多维分段和动态权重动态时间弯曲距离的多元时间序列相似性度量方法.首先对多元时间序列进行多维分段拟合,选取拟合段的斜率、均值和时间跨度作为每一段的特征,在对多元时间序列降维的同时也保留了变量之间的相关性;然后提出一种动态权重动态时间弯曲距离度量方法计算多元时间序列特征矩阵之间的距离,避免了直接使用动态时间弯曲距离造成的畸形匹配问题.最终实验结果也验证了该方法在多种类型的数据集上都能取得较高的度量精度,表明了该方法的有效性.  相似文献   

9.
刘苗苗  周从华  张婷 《计算机工程》2021,47(8):62-68,77
利用动态时间弯曲(DTW)技术在原始多元时间序列进行相似性度量时时间复杂度较高,且DTW在追求最小弯曲距离的过程中可能会出现过渡拉伸和压缩的问题。提出一种基于分段特征及自适应加权的DTW多元时间序列相似性度量方法。对原始时间序列在各个变量维度上进行统一分段,选取分段后拟合线段的斜率、分段区间的最大值和最小值以及时间跨度作为每一段的特征,实现对原始序列的大幅降维,提高计算效率。在DTW计算最佳弯曲路径的过程中为每个点设置自适应代价权重,限制弯曲路径中点列的重复使用次数,改善时间序列因过度拉伸或压缩所导致的度量精度低的问题,以得到最优路径路线。实验结果表明,该方法能很好地度量多元时间序列之间的相似性,在多个数据集上都能取得较好的度量结果。  相似文献   

10.
首先对Criminisi 算法的优先级进行了改进,将图像的局部亮度方差作为优先级的 一个度量因子,使图像的修复顺序更加合理;然后对Criminisi 算法最佳匹配块的获取过程进行 了改进,先后使用1 范数和最小二乘法,改进了相似性度量函数,进行分步筛选,获取最佳匹 配块,使得匹配更为准确,修复效果更加理想。  相似文献   

11.
机器学习的无监督聚类算法已被广泛应用于各种目标识别任务。基于密度峰值的快速搜索聚类算法(DPC)能快速有效地确定聚类中心点和类个数,但在处理复杂分布形状的数据和高维图像数据时仍存在聚类中心点不容易确定、类数偏少等问题。为了提高其处理复杂高维数据的鲁棒性,文中提出了一种基于学习特征表示的密度峰值快速搜索聚类算法(AE-MDPC)。该算法采用无监督的自动编码器(AutoEncoder)学出数据的最优特征表示,结合能刻画数据全局一致性的流形相似性,提高了同类数据间的紧致性和不同类数据间的分离性,促使潜在类中心点的密度值成为局部最大。在4个人工数据集和4个真实图像数据集上将AE-MDPC与经典的K-means,DBSCAN,DPC算法以及结合了PCA的DPC算法进行比较。实验结果表明,在外部评价指标聚类精度、内部评价指标调整互信息和调整兰德指数上,AE-MDPC的聚类性能优于对比算法,而且提供了更好的可视化性能。总之,基于特征表示学习且结合流形距离的AE-MDPC算法能有效地处理复杂流形数据和高维图像数据。  相似文献   

12.
针对传统谱聚类算法在处理大规模数据集时,聚类精度低并且存在相似度矩阵存储开销大和拉普拉斯矩阵特征分解计算复杂度高的问题。提出了一种加权PageRank改进地标表示的自编码谱聚类算法,首先选取数据亲和图中权重最高的节点作为地标点,以选定的地标点与其他数据点之间的相似关系来逼近相似度矩阵作为叠加自动编码器的输入。然后利用聚类损失同时更新自动编码器和聚类中心的参数,从而实现可扩展和精确的聚类。实验表明,在几种典型的数据集上,所提算法与地标点谱聚类算法和深度谱聚类算法相比具有更好的聚类性能。  相似文献   

13.
刘奕志  程汝峰  梁永全 《计算机科学》2018,45(2):125-129, 146
基于加权K近邻的密度峰值发现算法(FKNN-DPC)是一种简单、高效的聚类算法,能够自动发现簇中心,并采用加权K近邻的思想快速、准确地完成对非簇中心样本的分配,在各种规模、任意维度、任意形状的数据集上都能得到高质量的聚类结果,但其样本分配策略中的权重仅考虑了样本间的欧氏距离。文中提出了一种基于共享近邻的相似度度量方式,并以此相似度改进样本分配策略,使得样本的分配更符合真实的簇归属情况,从而提高聚类质量。在UCI真实数据集上进行实验,并将所提算法与K-means,DBSCAN,AP,DPC,FKNN-DPC等算法进行对比,验证了其有效性。  相似文献   

14.
The performance of clustering in document space can be influenced by the high dimension of the vectors, because there exists a great deal of redundant information in the high-dimensional vectors, which may make the similarity between vectors inaccurate. Hence, it is very considerable to derive a low-dimensional subspace that contains less redundant information, so that document vectors can be grouped more reasonably. In general, learning a subspace and clustering vectors are treated as two independent steps; in this case, we cannot estimate whether the subspace is appropriate for the method of clustering or vice versa. To overcome this drawback, this paper combines subspace learning and clustering into an iterative procedure named adaptive subspace learning (ASL). Firstly, the intracluster similarity and the intercluster separability of vectors can be increased via the initial cluster indicators in the step of subspace learning, and then affinity propagation is adopted to partition the vectors into a specific number of clusters, so as to update the cluster indicators and repeat subspace learning. In ASL, the obtained subspace can become more suitable for the clustering with the iterative optimization. The proposed method is evaluated using NG20, Classic3 and K1b datasets, and the results are shown to be superior to the conventional methods of document clustering.  相似文献   

15.
轨迹聚类是城市交通数据挖掘的重点之一,交通轨迹聚类算法是按照一定的相似度指标将轨迹划分成若干个类簇。在复杂的路网环境下,针对目前如DTW、SDTW等相似度计算方法准确性不高的问题进行了研究,提出了一种划时区分段的动态时间规整算法(SDTW+)进行相似度计算。该算法充分考虑了轨迹形状因素,能有效提高准确性。实验部分利用不同相似度算法,并结合层次聚类算法对实际车辆轨迹进行聚类,最终以平均轮廓系数和聚类成功率为评价指标,判断不同相似度算法的聚类效果。试验结果表明,采用所提算法相对于采用DTW、SDTW的平均轮廓系数分别提高33.86%,12.94%,同时聚类成功率也得到一定提高。  相似文献   

16.
针对大数据环境下高维数据聚类速度慢、准确率低的问题,提出了一种面向大数据的快速自动聚类算法(FACABD)。FACABD聚类算法利用谱聚类算法对大数据集进行归一化和列降维,提出了一种新的快速区域进化的粒子群算法(FRE-PSO),并利用该算法进行行降维;然后在降维处理后的数据基础上,引入聚类模糊隶属度基数,自动发现簇的数目,根据类簇数目,采用FRE-PSO算法结合模糊聚类算法快速完成自动聚类。在人工生成数据集和UCI机器学习数据集上的实验结果表明,该算法能够在数据驱动下快速自动聚类,有效地提高了运行速度和精度。  相似文献   

17.
针对目前聚类算法没有充分地利用输入知识,不便于知识的学习和增长的情形,提出在高维数据集的情况下,恰当地利用输入知识可以更准确有效地发现聚类,提出聚类的相关维集的概念,分析输入知识的特点,对带有输入知识的高维聚类算法进行研究,指导聚类的学习过程。  相似文献   

18.
文档聚类综述   总被引:28,自引:6,他引:28  
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行了综述。最后还介绍了聚类质量评测问题。  相似文献   

19.
Clustering is often considered as an unsupervised data analysis method, but making full use of the prior information in the process of clustering will significantly improve the performance of the clustering algorithm. Spectral clustering algorithm can well use the prior pairwise constraint information to cluster and has become a new hot spot of machine learning research in recent years. In this paper, we propose an effective clustering algorithm, called a semi-supervised spectral clustering algorithm based on pairwise constraints, in which the similarity matrix of data points is adjusted and optimized by pairwise constraints. The experiments on real-world data sets demonstrate the effectiveness of this algorithm.  相似文献   

20.
【目的】在大数据处理领域,分布式计算系统得到广泛应用,它们的可扩展性得到重点关注,但其绝对性能往往没有得到重视。我们希望提出科学合理、与时俱进的度量标准,对分布式系统的性能进行评估。【方法】本文通过对比特定任务的单机实现和分布式实现来讨论分布式系统的性能,提出COS(Configuration that Outperforms a Single machine)这一指标,来衡量分布式系统在达到单台机器的性能时,需要的硬件资源数量。我们选取k-means聚类和逻辑回归两个经典机器学习算法,对其进行单机多线程实现,并通过向量化计算、优化内存分配与访问等方式对性能进行了优化,为分布式多机系统的性能提供参考。【结果】以Apache Spark作为对标系统,实验发现无论是使用其原生编程接口,还是经过悉心优化的机器学习库,都要使用数倍甚至数百倍的机器,才能达到单机多线程实现的性能。【局限】分布式系统与单机实现进行性能对比并不是完全公平的,分布式系统的额外开销客观存在。【结论】但COS指标仍能反映分布式系统存在的绝对性能较差、没有充分利用硬件优势等问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号