首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对用户查询与知识文档间检索失配问题,提出了一种基于相似度矩阵的本体检索匹配算法。该方法是对现有的检索匹配算法的一种改进。方法利用领域本体来快速确定候选匹配集;进而从三个层次来综合计算元素间的相似度;利用相似度矩阵得到两本体间的相似度。实验结果表明,在查全率、查准率和响应时间方面都有较好的表现。  相似文献   

2.
基于相似度传递的协同过滤算法   总被引:2,自引:1,他引:1       下载免费PDF全文
协同过滤算法是个性化推荐系统中应用较广的算法之一。随着用户数量及项目数量的增加,数据的稀疏问题成为影响个性化推荐质量的重要因素。为此,提出一种基于相似度传递的协同过滤算法。该算法能使大于阈值的用户相似度在有限路径长度上传递,增加可用于计算推荐值的用户最近邻居的数量,减少数据稀疏问题的影响,提高推荐质量。  相似文献   

3.
针对传统协同过滤算法中评分数据稀疏性及所造成推荐质量不高的问题,提出一种巴氏系数(Bhattacharyya Coefficient)改进相似度的协同过滤算法。在基于近邻协同过滤算法基础上,首先利用Jaccard相似性来计算用户间的全局相似性;其次使用巴氏系数获得评分分布的整体规律,并结合Pearson相关系数来计算其局部相似性;最后融合全局相似性和局部相似性得到最终的相似度矩阵。实验结果表明,该算法在稀疏数据集上获得更好的推荐结果,有效地缓解了评分数据稀疏性问题,提高了推荐的准确度。  相似文献   

4.
轨迹相似性度量是轨迹数据挖掘的基础问题。受设备型号、信号强度和周围环境的影响,轨迹数据具有噪声大、数据量大、采样不均匀等特征,给轨迹相似性度量带来了极大的挑战。因此,提出了基于时空金字塔匹配的轨迹相似度算法,通过在时间和空间维度上对轨迹进行不同粒度的划分,然后利用不同粒度的权重组合来衡量轨迹之间的相似性。该算法能够有效克服轨迹噪声的影响,同时兼顾了轨迹的时间特性和空间特性,并具有较低的计算复杂度。最后,利用真实的信令数据集和人工合成的全球定位系统数据集进行实验,实验结果证明了该算法在准确率和计算复杂度方面都优于目前的主流算法。  相似文献   

5.
袁正午  陈然 《计算机应用》2018,38(3):633-638
针对传统协同过滤推荐算法在数据稀疏的情况下存在的性能缺陷和相似性度量方法的不足,为了提高推荐精度,改进原算法得到了一种基于多层次混合相似度的协同过滤推荐算法。该算法主要分为三个不同的层次:首先采用模糊集的概念将用户评分模糊化,计算用户的模糊偏好,并结合用户评分的修正余弦相似度和用户评分的Jarccad相似度总体作为用户评分相似度;再对用户评分进行分类来预测用户对项目类别的兴趣程度,从而计算出用户兴趣相似度;然后利用用户的特征属性来预测用户之间的特征相似度;其次根据用户评分数量来动态地融合用户兴趣相似度及用户特征相似度;最后融合三个层次的相似度作为用户混合相似度的结果。利用MovieLens公用数据集对改进前后的算法进行对比实验,结果表明:当在邻居集合数量较少时,改进的混合算法相对修正余弦相似度算法的平均绝对偏差(MAE)下降了5%左右;较改进的修正的Jaccard相似性系数的协同过滤(MKJCF)算法也存在略微的优势,随着邻居集合数的增加MAE也平均下降了1%左右。该算法采用多层次的推荐策略提高了用户的推荐精度,有效地缓解了数据稀疏性问题和单一度量方法的影响。  相似文献   

6.
提出了一种基于项目综合相似度的协同过滤算法。综合相似度是项目相似度和类别相似度进行加权, 加权方式是从热能学中协同计算燃烧传热量的高温辐射换热综合发射率ε公式比拟得出, 两者均是计算综合系数, 在计算综合系数中可以通用。实验结果表明, 在推荐不同的前N个项目的实验中, 用新方法得到的准确率高于传统方法; 在固定推荐数目改变最近邻的实验中, 用新方法得到的准确率高于传统方法, 因此可以得出结论:基于项目综合相似度的协同过滤算法可以提高计算准确性, 提高推荐质量。  相似文献   

7.
一种基于纹线相似度的指纹匹配算法   总被引:2,自引:0,他引:2  
本文研究了一种基于纹线相似度的指纹匹配算法,利用纹线的相似程度寻找一对基准细节点(referenceminutiae),根据基准细节点对所在的纹线计算两幅待匹配指纹图像的相对旋转和平移参数,并将待识指纹相对于模板指纹做姿势纠正,最后使用动态搜索半径以坐标匹配的方式实现两枚指纹的匹配.实验结果表明,该算法可以正确、快速地实现指纹匹配,对图像的旋转、平移具有不变性.  相似文献   

8.
推荐算法通过历史数据发现用户的兴趣偏好,在数据资源中寻找用户的偏好信息,并对用户进行推荐。目前,推荐系统中的协同过滤算法在各领域应用广泛,由于数据稀疏性和冷启动,使得推荐质量有所下降,为提升推荐精度,有学者从相似度方向进行研究。总结了推荐系统中最广泛使用的协同过滤算法,以及推荐系统中常用的传统相似度算法;对比分析了基于Pearson相关系数的相似度、余弦相似度、修正的余弦相似度等的适用场景;从冷启动和数据稀疏等方面分析了相似度的研究现状,研究表明通过混合相似度计算用户相似性,提高了推荐质量。最后,总结了相关文献在改进后存在推荐效率低、复杂度增高的问题,在提高推荐精度和推荐效率方面对相似度改进进行了展望。  相似文献   

9.
基于匹配区域特征的相似字符串匹配过滤算法孙德才   总被引:1,自引:0,他引:1  
相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-gram命中的均匀性和q-gram有效命中的区域性.新算法利用这些新特征优化了传统过滤标准,提高了算法的过滤效率;并改进了QUASAR中基于分块策略的过滤区确定方案.实验结果表明,新算法与改进前相比有效地加快了匹配速度,尤其在误差率较小时改进效果更佳.  相似文献   

10.
为了提高大数据集基于内容的相似匹配速度,本文采用MapReduce框架实现了一种并行的相似匹配算法,解决了大数据信息安全监测中的快速相似匹配问题。算法基于先过滤、再验证的方式设计了三个阶段。在配对阶段,通过对索引子串和匹配子串进行配对去除了不包含共享q-gram的无关对;在过滤阶段,通过q-gram命中特征过滤掉了一定不是真实匹配的候选对;在验证阶段,通过计算候选对的真实匹配度找出了满足要求的真实匹配。实验结果证明,本文提出的字符串分割过滤方法有效地提高了相似匹配的速度。实验结果也显示新算法较适合匹配度变化范围较大的应用场景。  相似文献   

11.
Order-preserving pattern matching has been introduced recently, but it has already attracted much attention. Given a reference sequence and a pattern, we want to locate all substrings of the reference sequence whose elements have the same relative order as the pattern elements. For this problem, we consider the offline version in which we build an index for the reference sequence so that subsequent searches can be completed very efficiently. We propose a space-efficient index that works well in practice despite its lack of good worst-case time bounds. Our solution is based on the new approach of decomposing the indexed sequence into an order component, containing ordering information, and a δ component, containing information on the absolute values. Experiments show that this approach is viable, is faster than the available alternatives, and is the first one offering simultaneously small space usage and fast retrieval.  相似文献   

12.
基于极值点特征的时间序列相似性查询方法*   总被引:4,自引:2,他引:2  
为了提高时间序列子序列匹配的准确度和效率,提出了基于极值点特征的时间序列相似性查询方法。首先识别出时间序列中的极值特征点,根据极值点使用多层次极值划分法对长序列进行划分;然后对划分得到的多层次子序列集使用改进的动态时间弯曲方法与查询序列进行相似性匹配;最后找到与查询序列最相似的子序列。实验表明,此方法在保证准确度的情况下大大提高了相似性搜索过程的效率。  相似文献   

13.
通过分析在移动医疗大数据平台下,机会网络中节点传递信息方式的特点,遍历所有邻接节点,对两节点的数据进行比较,通过最优匹配方式,选择匹配结果最优的邻接节点作为下一跳的节点,从而找出一条使数据高效转发的路径。根据此过程,提出一种基于移动医疗大数据平台下深度最优匹配算法的机会网络转发机制,即DOM算法,用来匹配节点中的数据分组,从而选择一条数据高效转发的路径。通过与机会网络中的经典算法比较,表明DOM算法能够在数据传播的过程中减少冗余数据并且显著提高传输成功率。  相似文献   

14.
Given a text T and a pattern P, the order-preserving pattern matching (OPPM) problem is to find all substrings in T which have the same relative orders as P. The OPPM has been studied in the fields of finding some patterns affected by relative orders, not by their absolute values. In this paper, we present a method of deciding the order-isomorphism between two strings even when there are same characters. Then, we show that the bad character rule of the Horspool algorithm for generic pattern matching problems can be applied to the OPPM problem and we present a space-efficient algorithm for computing shift tables for text search. Finally, we combine our bad character rule with the KMP-based algorithm to improve the worst-case running time. We give experimental results to show that our algorithm is about 2 to 6 times faster than the KMP-based algorithm in reasonable cases.  相似文献   

15.
Zhang-Shasha算法在度量有序树的距离以及相似度应用中具有独特的优势.针对学习者存储过程作业自动评估的问题,提出了一种基于Zhang-Shasha算法的存储过程相似性匹配的解决方法,关键在于如何把存储过程块转换成算法要求的有序树形式.采用词法分析和语法分析把存储过程转换成语法树,再转换成有序二叉树.通过分析转换所得的二叉树属于RB型树,Zhang-Shasha-R算法在计算此类型树的距离和相似度时具有较高的效率.分析实验结果,该方法的准确率较高,且随着实验中题量的增加,评估的准确率逐步提高.  相似文献   

16.
为解决本体异构、实现不同本体应用程序间互操作以及数据集成,提出一种基于RDF图的改进相似度传播匹配算法。首先通过WordNet发现初始相似对种子,经过预处理把本体表示成RDF三元组形式,针对RDF图的特点,将相似度传播的条件扩展到三元组中,发现可能相似对;然后采用综合元素特征的方法计算相似度。相似度传播、发现可能相似对种子、相似度计算是一个循环迭代的过程,直到满足收敛条件。实验表明了该算法的有效性,并在时间性能上也有所提高。  相似文献   

17.
不完整数据的分析与填充一直是大数据处理的热点研究课题,传统的分析方法无法对不完整数据直接聚类,大部分方法先填充缺失值,然后对数据聚类。这些方法一般利用整个数据集对缺失数据进行填充,使得填充值容易受到噪声的干扰,导致填充结果不精确,进而造成聚类精度很低。提出一种不完整数据聚类算法,对不完全信息系统的相似度公式进行重新定义,给出不完整数据对象间的相似度度量方式,进而直接对不完整数据聚类。根据聚类结果将同一类对象划分到相同的簇中,通过同一类对象的属性值对缺失值进行填充,避免噪声对填充值的干扰,提高填充结果的精确性。实验结果表明,提出的方法能够对不完整数据进行聚类,并有效提高缺失数据的填充精度。  相似文献   

18.
为了能在大数据集中合理地寻找到网络结构,提出了一种适用于大数据集的通过局部核心节点进行社区发现的算法。对于初始节点不确定和适应度函数计算所带来的时间消耗,引入局部关键节点和对适应度公式进行改进来减少时间消耗。并在小规模数据网络和较大规模数据网络中与经典算法进行实验,由实验结果得出,在小规模的数据集中,本算法与经典算法效率相差不大,在测试数据集的规模不断变大的情况下,本算法执行效率明显提高。测试结果表明,本算法是可行和有效的,适用于大规模数据的网络结构发现。  相似文献   

19.
针对不等长序列数据的关联问题,提出基于滑动窗口的最优匹配增权法不等长序列相似度度量算法。以较短序列作为滑动窗口遍历较长序列得到一组滑动相似度,利用这组相似度形成最优权重,加权得到不等长序列的相似度,并根据相似度大小对序列数据进行关联判决,以解决截断法相似度度量仅能反映截断序列局部相似度的问题。仿真实验验证了所提出算法对不等长序列数据关联的有效性,并对序列长度和量测误差等因素对相似度度量和关联效果的影响进行了讨论。  相似文献   

20.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号