共查询到10条相似文献,搜索用时 281 毫秒
1.
2.
为解决中文字符串匹配精度较低的问题,提出了一种基于编辑距离和相似度改进的汉字字符串近似匹配算法,针对汉字字符串特点,使用汉字拼音和五笔编码计算;通过改进动态规划算法,能够有效提高编辑距离的计算准确度以及执行效率;再引入考虑交换问题的归一化算法,以语义编辑距离与长句长度的比值作为归一化结果,以此来提高近似匹配算法的准确度。实验结果表明,改进后算法计算的相似度质量要优于改进前的算法结果,且对提高算法效率和查全率、查准率和时间性能等指标均有明显改善,证明该算法的可行性和有效性。 相似文献
3.
4.
在云存储中,如何有效地调度用户请求到目标磁盘以实现绿色节能存储是一个热点问题.鉴于云存储对节能调度算法提出的新要求,如请求响应时间敏感与对动态优化的限制等,本文提出了一种基于布局的虚拟磁盘节能调度方法.该方法将磁盘阵列动态划分为工作区与就绪区,以工作区为主向用户分发资源,并以未连接虚拟机的虚拟磁盘为单位,根据实时负载情况对虚拟磁盘布局进行动态优化.实验结果表明,这种方法不仅能够降低磁盘阵列的能耗,而且能够有效地缓解响应时间延长的问题,还能够使虚拟磁盘布局达到更高的负载均衡水平. 相似文献
5.
谱聚类算法通常是采用高斯核作为相似性度量,并利用所有可用的特征来构建具有欧氏距离的相似度矩阵,数据集复杂度会影响其谱聚类性能,因此该文提出一种基于公理化模糊子集(AFS)的改进谱聚类算法。首先结合AFS算法,利用识别特征来衡量更合适的数据成对相似性,生成更强大的亲合矩阵;再有效地利用Nyström采样算法,计算采样点间以及采样点和剩余点间的相似度矩阵去降低计算的复杂度;最后通过在不同数据集以及图像分割上进行实验,证明了提出算法的有效性。 相似文献
6.
7.
电力系统中的异常数据会极大降低电力系统运行状态估计的准确性,提出一种改进FCM聚类算法应用于电力异常数据检测。基于距离测度公理化定义给出一种新型距离测度计算公式,并根据新型距离测度建立相似性矩阵提出一种改进FCM算法;结合萤火虫算法在全局寻优方面的优势,利用萤火虫算法优化改进FCM算法的初始化聚类中心。通过加噪人工数据集实验验证了该算法与其他方法相比,类别划分更清晰、噪声鲁棒性更强,并依据3σ原理利用该算法对某电厂进行电力异常数据检测,实验结果表明,文中算法能够准确检测出电力异常数据。 相似文献
8.
累进式空间连接查询广泛应用于空间数据集成、在线空间聚集查询系统中.本文提出一种高效的累进式空间连接查询处理算法,在现有累进式等值连接查询处理框架之上增加空间连接处理策略,使之适于处理空间连接查询;提出一种基于驻留度的动态同步替换策略处理内存溢出,提高了驻留内存空间对象的利用率;还提出了一种基于BEA的不完全连接查询处理算法有效减少磁盘连接计算冗余的I/O和CPU计算代价.实验表明,所提出的算法明显优于现有累进式空间连接查询处理算法. 相似文献
9.
针对磁盘数据集中正负样本数目严重不平衡导致基于机器学习的分类算法易出现故障预测准确率低的问题,本文提出一种基于自适应加权Bagging-GBDT算法的磁盘故障预测模型.首先,提出基于聚类的分层欠采样方法对健康磁盘样本进行多次抽样,解决随机欠采样方法易丢弃潜在有用样本的问题;其次,将每次采样后样本与全部故障磁盘样本组合得到多个样本子集,通过训练这些子集建立多个预测精度较高的GBDT子分类模型;最后,根据待测点邻域样本类别自适应确定各子模型权重,据此通过加权硬投票集成最终的磁盘故障预测模型.在8组KEEL不平衡数据集上实验结果表明,与现有典型不平衡学习算法相比,少数类的召回率平均提升了9.46%;同时在磁盘公开数据集和某调度系统磁盘数据上对比验证了该方法在故障预测率上的先进性. 相似文献
10.
由Jeh和Widom提出的SimRank算法是一种普适"结构相似度"计算模型。由于SimRank算法采用迭代方式计算图节点间相似性,因此时间复杂度和空间复杂度都非常高。随着数据量的激增,单机运算能力不能满足大规模数据的计算要求。本文提出了基于MapReduce计算模型的分布式SimRank算法,利用该算法对RDF图进行相似度度量,然后利用分布式的AP聚类算法对图节点进行聚类分析。实验结果表明,该方法能够高效的完成图节点的相似度度量,实现图的有效聚类。 相似文献