首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
以中医针灸决策系统中的处方数据为基础,利用协同过滤思想推荐核心腧穴集合,为医生提供决策支持。通过处理历史针灸处方数据,将改进的Jaccard算法计算各腧穴的平均相似度,根据平均相似度选取关键腧穴,推荐与关键腧穴相似的TOP-N腧穴作为核心腧穴。实验挖掘了26种疾病的核心腧穴,其中可用的有21种,可用度达到80.77%。实验表明改进的Jaccard相似度协同过滤能算法能有效的推荐出治疗特定疾病的核心腧穴。  相似文献   

2.
袁正午  陈然 《计算机应用》2018,38(3):633-638
针对传统协同过滤推荐算法在数据稀疏的情况下存在的性能缺陷和相似性度量方法的不足,为了提高推荐精度,改进原算法得到了一种基于多层次混合相似度的协同过滤推荐算法。该算法主要分为三个不同的层次:首先采用模糊集的概念将用户评分模糊化,计算用户的模糊偏好,并结合用户评分的修正余弦相似度和用户评分的Jarccad相似度总体作为用户评分相似度;再对用户评分进行分类来预测用户对项目类别的兴趣程度,从而计算出用户兴趣相似度;然后利用用户的特征属性来预测用户之间的特征相似度;其次根据用户评分数量来动态地融合用户兴趣相似度及用户特征相似度;最后融合三个层次的相似度作为用户混合相似度的结果。利用MovieLens公用数据集对改进前后的算法进行对比实验,结果表明:当在邻居集合数量较少时,改进的混合算法相对修正余弦相似度算法的平均绝对偏差(MAE)下降了5%左右;较改进的修正的Jaccard相似性系数的协同过滤(MKJCF)算法也存在略微的优势,随着邻居集合数的增加MAE也平均下降了1%左右。该算法采用多层次的推荐策略提高了用户的推荐精度,有效地缓解了数据稀疏性问题和单一度量方法的影响。  相似文献   

3.
根据概念相似信息,文中提出了一种新的文本相似度计算方法.新方法首先将文本转换为词向量空间模型,然后将词分解为概念集合,通过计算概念间的内积空间,得到词之间的相似度,最后根据词之间的相似度,计算文本相似性.文中的主要工作包括:1)提出了一种新的词相似度计算公式;2)提出了一种新的基于词相似度的文本相似计算方法;3)成功的将该方法应用到WEB新闻相似查询中;4)通过实验证明算法的有效性.  相似文献   

4.
基于节点相似度的网络社团检测算法研究   总被引:1,自引:0,他引:1  
社团结构是众多复杂网络的统计特性之一,挖掘网络中存在的社团结构日益受到人们的普遍关注。网络中的社团结构检测本质上类似于传统机器学习领域的聚类分析,其关键问题在于如何定义网络中节点间的相似度。首先提出了基于节点相似度的节点分裂算法SUN,相比传统的基于边界数(betweenness)的节点分裂算法GN, SGN在速度和精度上都有明显改善;接着,在利用各种节点相似度计算方法得到节点间的相似度之后,采用几种经典的聚类分析算法对网络进行社团划分,在模拟数据和真实数据上的实验表明:基于网络拓扑结构信息的signal和regular方法优于基于网络节点局部信息的Jaccard方法,而且对于复杂网络社团划分问题,如果选择好的网络节点相似度构造方法,已有的基于相似度矩阵的聚类分析算法都能快速有效地对网络社团进行划分。  相似文献   

5.
集合相似连接(set similarity join)是指在给定的数据集中,按照基于集合间覆盖关系的相似度计算方法来衡量数据之间的相似度、并找出所有相似度不小于给定阈值的数据对的操作.集合相似连接作为一种新的基本操作在很多领域中有重要应用.随着社会网络、移动应用以及在线服务的发展,使得数据收集的效率和规模得到了很大的提高,同时给相似连接操作带来新的挑战.根据集合相似的必要条件,提出了相似集合之间的差异度.利用差异度和鸽巢原理,提出了一种新颖的基于数据划分的集合相似连接计算方法,该方法对集合进行自适应的均衡划分,并利用基于划分块的过滤方法来提高过滤的效率.为了进一步提高过滤的效果和相似连接的效率,利用划分块的位置信息提出了增强的过滤方法.针对提出的方法,在不同的环境下进行了实验,实验结果表明,该方法与已有的方法相比可以有效地提高相似连接的效率.  相似文献   

6.
社交网络结构错综复杂,主题社区是进行个性化推荐和商业推广的重要途径之一。然而,现有主题社区挖掘方法,要么仅基于链接关系和文本信息挖掘主题社区,要么在已划分社区的基础上挖掘主题,忽略了主题与社区的相互作用,导致社区内部话题相似度不高。因此,提出新的社区主题计算方法,进而建立一种融合主题相似度权重的主题社区发现模型(TSWTCD)。利用文本信息提取主题,计算节点间主题相似度作为链接权重,将链接权重作为模块度参数划分社区。最后,根据提出新的社区主题计算方法得到社区主题。基于真实数据集的实验结果表明,TSWTCD模型提升了挖掘主题社区的质量。  相似文献   

7.
耿德志  徐乾 《计算机仿真》2021,38(2):308-312
为了提高高维混合属性数据挖掘效果,提出基于K-Means聚类算法的高维混合属性数据挖掘方法.通过分析数值型数据和分类型数据相似度,获取高维混合属性数据度量标准,将簇中心点设为簇里点的平均数值或质心,引入最大距离自动生成k值策略与坐标转换策略,优化聚类结果;依据欧几里得距离聚类剩余数据,根据最大间距对应的数据中心点坐标与半径,实现数据集聚类划分;通过判定聚类后数据噪音类别,计算各类别中类异常因子,经过降序排列,挖掘并标记异常数据.仿真结果表明,所提方法对高维混合属性数据具有理想的聚类优势与较好的挖掘稳定性.  相似文献   

8.
田星  郑瑾  张祖平 《计算机科学》2018,45(7):186-189
通过对传统Jaccard算法的研究和改进,提出了一种基于词向量的Jaccard句子相似度算法。传统的Jaccard算法以句子的字面量为特征,因而在语义层面的相似度计算方面受到了一定的限制。而随着深度学习的兴起,尤其是词向量的提出,词语在计算机中的表示有了突破性的进展。该算法首先通过训练将每个词语映射为语义层面的高维向量,然后计算各个词向量之间的相似度,高于阈值α的作为共现部分,最终计算句子的相似度。实验表明,相较于传统的Jaccard算法,该算法在短文本相似度计算的准确率上有较明显的提升。  相似文献   

9.
事件本体相比于传统本体具有更加丰富的语义信息,在面向事件的大数据集成中更具优势,然而用传统的本体相似计算方法计算事件本体相似度存在很多不足,提出了一种综合的事件本体相似度计算方法。该方法以词语相似度、集合相似度、层次结构相似计算为基础,然后从事件类名称、事件类要素、事件类层次结构和非层次结构讨论事件本体的相似度,最终获得事件本体的综合相似度。实验表明该方法相比传统本体相似度计算方法准确率更高,语义信息更加丰富。  相似文献   

10.
绝大部分的角色挖掘方法都是从无到有地进行构建,所有角色都是新挖掘出来的,而没有考虑事先已经存在的角色集合.而且从已有角色集合的方法中提出的相似度定义均不满足交换律;提出一种混合角色挖掘方法,以top-down方法预先定义部分角色,以bottom-up方法挖掘候选角色集合.定义加权结构复杂度并以此作为系统状态优化的指标.给出满足交换律的相似度定义,以此作为与原有角色集近似度量的指标,并提出相似度计算算法.在此基础上提出最小扰动混合角色挖掘的定义和算法;分析算法复杂度并作出性能评估,评估结果表明算法准确率和效率均有明显提高.  相似文献   

11.
推荐算法通过历史数据发现用户的兴趣偏好,在数据资源中寻找用户的偏好信息,并对用户进行推荐。目前,推荐系统中的协同过滤算法在各领域应用广泛,由于数据稀疏性和冷启动,使得推荐质量有所下降,为提升推荐精度,有学者从相似度方向进行研究。总结了推荐系统中最广泛使用的协同过滤算法,以及推荐系统中常用的传统相似度算法;对比分析了基于Pearson相关系数的相似度、余弦相似度、修正的余弦相似度等的适用场景;从冷启动和数据稀疏等方面分析了相似度的研究现状,研究表明通过混合相似度计算用户相似性,提高了推荐质量。最后,总结了相关文献在改进后存在推荐效率低、复杂度增高的问题,在提高推荐精度和推荐效率方面对相似度改进进行了展望。  相似文献   

12.
杨家慧  刘方爱 《计算机应用》2016,36(7):2006-2010
针对传统基于邻域的协同过滤推荐算法存在数据稀疏性及相似性度量只能利用用户共同评分的问题,提出一种基于巴氏系数和Jaccard系数的协同过滤算法(CFBJ)。在项目相似性度量中,该算法引入巴氏系数和Jaccard系数,巴氏系数利用用户所有评分信息克服共同评分的限制,Jaccard系数可以增加相似性度量中共同评分项所占的比重。该算法通过提高项目相似度准确率来选取最近邻,优化了对目标用户的偏好预测和个性化推荐。实验结果表明,该算法比平均值-杰卡德差分(MJD)算法、皮尔森系数(PC)算法、杰卡德均方差(JMSD)算法、PIP算法误差更小,分类准确率更高,有效缓解了用户评分数据稀疏所带来的问题,提高了推荐系统的预测准确率。  相似文献   

13.
张南  林晓勇  史晟辉 《计算机应用》2016,36(8):2246-2251
为提高协同过滤推荐方法的准确性和有效性,提出一种基于改进型启发式相似度模型的协同过滤推荐方法PSJ。该方法考虑了用户评分差值、用户全局评分偏好和用户共同评分物品数三个因素。PSJ方法的Proximity因子使用指数函数反映用户评分差值对用户相似度的影响,这样也可避免零除问题;将NHSM方法中的Significance因子和URP因子合并成PSJ方法的Significance因子,这使得PSJ方法的计算复杂度低于NHSM方法;而且为了提高在数据稀疏情况下的推荐效果,PSJ方法同时考虑了用户间的评分差值和用户全局评分两个因素。实验采用Top-k推荐中的查准率和查全率作为衡量标准。实验结果表明,当推荐物品数大于20时,与NHSM、杰卡尔德算法、自适应余弦相似度(ACOS)算法、杰卡尔德均方差(JMSD)算法和皮尔逊相关系数算法(SPCC)相比,PSJ方法的查准率与查全率均有提升。  相似文献   

14.
针对在数据服务中舆情去重不可避免且缺乏理论指导的问题,通过研究SimHash、MinHash、Jaccard、Cosine Similarty经典去重算法,以及常见的分词和特征选择算法,以寻求表现优异的算法搭配,并对传统Jaccard和SimHash进行了改进分别产生新算法:基于短文章的Jaccard和基于Cosine Distance的SimHash.针对比较对象众多实验效率低下的问题,提出了先纵向比较筛选出优势算法,然后横向比较获得最佳搭配,最后综合比较的策略,并结合3000舆情样本实验证明:改进的SimHash比传统的SimHash具有更高的精度和召回率;改进的Jaccard较传统Jaccard,召回率提高了17%,效率提高了50%;MinHash+结巴全模式分词和Jaccard+IKAnalyzer智能分词在保持精度高于96%的条件下,都具有75%以上的高召回率,且稳定性很好.其中MinHash去重效果略低于Jaccard,但特征比较时间较短,综合表现最好.  相似文献   

15.
文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性. 为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文档相似度的方法,该算法综合考虑了各元素、样本在文档中的权重及其对多个文档相似度的贡献程度. 实验结果表明,基于改进的Jaccard系数的文档相似度算法具有实效性并且能够得到较高的准确率,适用于各种长度的中英文文档,有效地解决现有技术中存在的文档间相似度计算不精的问题.  相似文献   

16.
目前,僵尸网络检测方法大多依靠对僵尸网络通信活动或通信内容的分析,前者对数据流的特征进行统计分析,不涉及数据流中的内容,在检测加密类型方面具有较强优势,但准确性较低;后者依赖先验知识进行检测,具有较强的准确度,但检测的通用性较低。因此,根据杰卡德相似度系数定义了通信相似度,并提出了一种基于用户请求域名系统(DNS,domain name system)的通信相似度计算方法,用于基于网络流量的僵尸网络节点检测。最后,基于Spark框架对所提出的方法进行了实验验证,实验结果表明该方法可以有效地用于僵尸网络节点检测。  相似文献   

17.
18.
一种Web用户行为聚类算法   总被引:13,自引:0,他引:13  
提出了一种新的路径相似度系数计算方法,并使之与雅可比相似系数结合,用于计算用户访问行为的相似度,在此基础之上又提出了一种分析web用户行为的聚类算法(FCC)。通过挖掘Web日志,找出具有相似行为的web用户,由于FCC聚类算法过滤了小于指定阚值的相似度系数,大大缩小了数据规模,很好地解决了其他聚类算法(如层次聚类)在高堆空间聚类时的“堆数灾难”问题,最后的实验结果很好。  相似文献   

19.
A similarity measure is a useful tool for determining the similarity between two objects. Although there are many different similarity measures among the intuitionistic fuzzy sets (IFSs) proposed in the literature, the Jaccard index has yet to be considered as way to define them. The Jaccard index is a statistic used for comparing the similarity and diversity of sample sets. In this study, we propose a new similarity measure for IFSs induced by the Jaccard index. According to our results, proposed similarity measures between IFSs based on the Jaccard index present better properties. Several examples are used to compare the proposed approach with several existing methods. Numerical results show that the proposed measures are more reasonable than these existing measures. On the other hand, measuring the similarity between IFSs is also important in clustering. Thus, we also propose a clustering procedure by combining the proposed similarity measure with a robust clustering method for analyzing IFS data sets. We also compare the proposed clustering procedure with two clustering methods for IFS data sets.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号