首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
传统关联分类算法使用单一最小项目支持度挖掘关联规则,导致稀有项关联规则无法被发现,从而影响分类的准确性和实用性。提出一种多支持度关联规则分类算法MS-CBAR(Multiple Supports-Classification Based on Association Rules),将多最小项目支持度模型应用于关联分类,以有效挖掘稀有项。该算法为数据库中的规则项提供了用户可定义的最小项目支持度。MS-CBAR算法使用项的最小项支持度阈值、类的最小类支持度值和规则项的最小支持度值决定分类规则是否频繁。生成分类规则集后,使用最高优先度规则覆盖法基于规则集建立分类器。实验表明,所提算法在包含稀有项目及稀有类的数据集中准确率高于传统关联分类算法及其相关算法,表现更稳定。  相似文献   

2.
目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用WordNet结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。  相似文献   

3.
在当前骨干网络链路速率呈几何倍数增长的情况下,实时准确地挖掘出网络流中的频繁项对于网络管理和网络安全具有重要的意义.在SS(space saving)计数算法的启发之下,针对网络流的实际特性,提出了一种剪枝操作受时间和流长双重约束的网络流频繁项挖掘算法(integrated weighted frequent items mining,IWFIM).IWFIM计数算法采用时间和流长组合赋权的方式为每个流项赋权,且算法每次剪枝操作时总是删除权值最小的流项.在IWFIM算法的基础上,依据网络流的重尾分布特性,又提出了一种能够结合散列方法和计数方法优点的网络流频繁项挖掘算法(counting Blooming filter and integrated weighted frequent items mining,CBF_IWFIM).CBF_IWFIM算法首先采用改进的计数型布鲁姆过滤器(counting Blooming filter,CBF)在不保存网络流信息的情况下过滤掉绝大部分的短流,然后采用IWFIM算法实现网络流频繁项挖掘.通过实际网络流量测试表明,CBF_IWFIM和IWFIM算法具有非常高的空间利用率和准确率,2种算法对于网络流频繁项的挖掘效果明显优于SS等3种算法,即使在使用其他算法1?3缓存的极端情况下,CBF_IWFIM和IWFIM 2种算法的频繁项识别效果仍然要优于SS等算法.  相似文献   

4.
随着基于位置服务应用的日益流行,其潜在的用户隐私泄露问题也成为制约其发展的一大挑战。用户位置数据的泄露,可能导致与用户生活相关的活动、住址等隐私信息泄露,隐私问题成为位置服务中人们普遍关注的热门话题。尤其是在连续查询场景下,查询间存在着密切的联系,这就使得用户的隐私面临更大的威胁。针对这一问题,文章提出了一种连续查询下的隐私保护算法,称为基于速度的动态匿名算法(V-DCA)。在匿名处理时,考虑了用户的运动特征和趋势,也就是速度和加速度,并且利用历史匿名集合来产生新的匿名集合,在抵御查询跟踪攻击、保护隐私的同时提供了良好的服务质量。文章设计了一种连续查询隐私保护算法——基于速度的动态匿名算法(V-DCA),将用户的速度、加速度作为匿名条件之一,有效地平衡了隐私和服务质量;为了评价匿名算法,分别从隐私保障、服务质量和匿名时间3个方面提出了多个度量指标;通过在真实地图及相同环境下与其他匿名算法进行比较实验,验证了V-DCA在隐私保障、服务质量和响应时间方面的良好表现。  相似文献   

5.
本文对多媒体图像数据提出一套较灵活的存储、索引查询方式。针对多媒体数据库信息查询通用性的问题,构建了一个较为集成的特征库。针对高维数据查询效率问题,将基于内容、颜色、距离和形状的匹配算法与FNN算法及查找聚类重心的加速检索算法集成于查询检索引擎IRE,使查询更高效、应用更广泛。  相似文献   

6.
基于图的适应性多连接查询优化算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于图的适应性多连接查询优化算法,分析关系结果集到达时间和结果集大小之间的关系,借鉴适应性查询优化的动态调整思想,对基于图的多连接查询进行改进。仿真实验结果表明,该算法在最好情况下的时间复杂度为O(n),且能有效提高查询效率。  相似文献   

7.
蒲天银  秦拯 《福建电脑》2009,25(8):84-84,70
针对网络安全态势感知系统中对数据源分析的复杂性与难度,根据数据流的挖掘技术的频繁度应用一种频繁项查询分析算法,该算法对数据源中同类型数据的频繁度进行综合检测分析,对解决数据融合与聚集以反对下一步态势感知评价的准确性有很好的帮助.  相似文献   

8.
网格聚类算法   总被引:3,自引:0,他引:3  
聚类分析有广泛的应用,是数据挖掘中非常重要的方法。聚类分析算法有多种分类,每种方法在不同领域发挥了不同的作用。以研究网格聚类算法为目的,介绍了聚类分析算法的要求以及常见的聚类算法;针对基于网格方法的聚类算法进行专门研究,比较分析了传统的和改进的基于网格方法的聚类算法。介绍的各种网格聚类算法都有自身的优点和不足。通过对这些网格聚类算法的学习便于深入研究网格聚类算法,以便将其与实际问题相结合,设计更好的算法。  相似文献   

9.
黄名选  钟智  张师超 《计算机工程与设计》2012,33(5):1863-1866,1880
针对信息检索中存在的词不匹配问题,提出了基于频繁项集和负关联规则挖掘的局部反馈查询扩展模型及其算法.该算法对前列n篇初检文档挖掘频繁项集和非频繁项集,并从频繁项集中提取关联词;从频繁项集和非频繁项集中挖掘负关联规则,提取负关联规则后件作为负关联词,计算负关联词与整个原查询词的相关性;根据相关性删除关联词库中与负关联词相同的词项,将余下的关联词项作为最终扩展词,并与原查询组合成新查询,实现查询扩展.实验结果表明,该算法能发现虚假的负关联词,有效地提高和改善信息检索性能.  相似文献   

10.
基于向量和矩阵的挖掘关联规则的高效算法   总被引:8,自引:0,他引:8  
挖掘关联规则是数据挖掘中一个重要的课题,产生频繁项目集是其中的一个关键步骤。文章提出了一种基于向量和矩阵的挖掘算法AVM,并将该算法与两种经典的发现频繁项目集的算法进行了比较。该算法只需要对数据库扫描一遍,并且存放辅助信息所需要的空间也少。实验表明与原先的算法相比,该算法的效率较好。  相似文献   

11.
针对Lossy Counting算法,即一个基于计数的确定性方案,提出一种新的基于权重的流数据频繁项挖掘算法(Lossy Weight),扩展了流数据频繁项的作用域.Lossy Weight算法不仅可用于传统的基于计数的频繁项挖掘,还可以挖掘出在整个流数据中所占权重比重大于门槛值的数据.实验数据分析证明该方案是有效的.  相似文献   

12.
针对传统推荐算法忽略时间因素的问题,根据个体用户短期行为的相似性,利用时间衰减函数计算项目间相关关系,提出基于用户兴趣的项目关联度; 将其用于项目相似度的计算,提出基于用户兴趣的项目相似度; 同时基于项目关联度对ItemRank算法进行改进,提出一种结合时间因素的TItemRank算法.实验结果表明, 利用项目关联度对推荐算法进行改进时,在推荐项目数较少的情况下能够明显地改善推荐效果.特别地,在推荐项目数为20时,基于用户兴趣的项目相似度相比余弦相似度和Jaccard相似度,推荐准确率分别提高了21.9%、6.7%; 在推荐项目数为5时,TItemRank算法相比ItemRank算法推荐准确率提高2.9%.  相似文献   

13.
针对 Apriori 算法在频繁项集自连接中产生大量的候选项集以及多次扫描数据库的不足,提出了一种改进的算法,该算法将数据库映射到一个布尔矩阵中,在矩阵列向量进行“与”运算之后,删除那些没有意义的项和记录,改进的算法在时间复杂度和空间复杂度上都有很大的提高。将改进的算法运用到社交网络好友推荐算法中,将网络社交平台中用户关注的用户和信息作为记录,将关注的用户作为交易项,构建交易数据库,计算频繁2项集,推荐按支持数排序的前N位用户作为好友。通过实验验证,改进的算法在社交网络好友推荐中具有较高的准确率和召回率。  相似文献   

14.
针对常用聚类算法对随机性强、波动频繁的交通流聚类效果不理想的问题,提出了一种新的交通流相似性度量准则——最大偏差相似性准则,并提出了一种基于最大偏差相似性准则的交通流聚类算法。最大偏差相似性准则能够有效刻画频繁波动交通流曲线的形态相似性,具有简明、合理、灵活等特点;聚类算法无需预先指定类别数,能够保证类间曲线的明显差异性和类内曲线的高度相似性。实验表明,所提出的算法聚类效果明显优于常用聚类算法,聚类结果能够较好地满足实际应用的需要。  相似文献   

15.
信息过载是困扰互联网发展的一项严峻挑战,而推荐系统是解决该问题的重要工具。目前已有各种推荐算法来解决互联网的信息过载问题,其中物质扩散算法和热传导算法是近年来颇受关注的两种推荐算法。物质扩散算法虽然具有较高的准确率,但推荐结果集中在少数热门物品,缺乏多样性,而热传导算法虽然具有较好的多样性,但准确率又明显偏低。本文在这两种算法的基础上进行改进提出了一个混合算法,新算法一方面在相似性计算模型上融合了两种传统算法的优点,另一方面增加了一个调节参数来抑制系统对热门物品的过度推荐。实验结果表明,在一定的参数条件下,新算法在准确率和多样性两指标上能够超越传统算法,并且该算法在平衡准确率和多样性这一对矛盾时表现得比传统算法更好。  相似文献   

16.
大多数对频繁模式挖掘算法的研究都着眼于逻辑层面算法过程的改进,而对数据在计算机内存中的物理存储方式的探索相对较少。以FP-Tree存储结构和FP-Growth算法为基础,提出了FP-Tree头表的顺序存储方式,并在此基础上,利用基于频繁项ID映射的哈希表对FP-Tree的存储方式进行了改进,提出了与之相对应的频繁模式挖掘算法。实验结果表明该算法是快速和有效的。  相似文献   

17.
在计算用户相似度时,传统的协同过滤推荐算法往往只考虑单一的用户评分矩阵,而忽视了项目之间的相关性对推荐精度的影响。对此,本文提出了一种优化的协同过滤推荐模型,在用户最近邻计算时引入项目相关性度量方法,以便使得最近邻用户的选择更准确;此外,在预测评分环节考虑到用户兴趣随时间衰减变化,提出了使用衰减函数来提升评价的时间效应的影响。实验结果表明,本文提出的算法在预测准确率和分类准确率方面均优于基于传统相似性度量的项目协同过滤算法。  相似文献   

18.
Mining itemset utilities from transaction databases   总被引:4,自引:0,他引:4  
The rationale behind mining frequent itemsets is that only itemsets with high frequency are of interest to users. However, the practical usefulness of frequent itemsets is limited by the significance of the discovered itemsets. A frequent itemset only reflects the statistical correlation between items, and it does not reflect the semantic significance of the items. In this paper, we propose a utility based itemset mining approach to overcome this limitation. The proposed approach permits users to quantify their preferences concerning the usefulness of itemsets using utility values. The usefulness of an itemset is characterized as a utility constraint. That is, an itemset is interesting to the user only if it satisfies a given utility constraint. We show that the pruning strategies used in previous itemset mining approaches cannot be applied to utility constraints. In response, we identify several mathematical properties of utility constraints. Then, two novel pruning strategies are designed. Two algorithms for utility based itemset mining are developed by incorporating these pruning strategies. The algorithms are evaluated by applying them to synthetic and real world databases. Experimental results show that the proposed algorithms are effective on the databases tested.  相似文献   

19.
The rationale behind mining frequent itemsets is that only itemsets with high frequency are of interest to users. However, the practical usefulness of frequent itemsets is limited by the significance of the discovered itemsets. A frequent itemset only reflects the statistical correlation between items, and it does not reflect the semantic significance of the items. In this paper, we propose a utility based itemset mining approach to overcome this limitation. The proposed approach permits users to quantify their preferences concerning the usefulness of itemsets using utility values. The usefulness of an itemset is characterized as a utility constraint. That is, an itemset is interesting to the user only if it satisfies a given utility constraint. We show that the pruning strategies used in previous itemset mining approaches cannot be applied to utility constraints. In response, we identify several mathematical properties of utility constraints. Then, two novel pruning strategies are designed. Two algorithms for utility based itemset mining are developed by incorporating these pruning strategies. The algorithms are evaluated by applying them to synthetic and real world databases. Experimental results show that the proposed algorithms are effective on the databases tested.  相似文献   

20.
《Graphical Models》2012,74(6):292-301
In this paper we present the first comprehensive study and analysis on different sketch-based mesh cutting approaches. To compare a representative number of state-of-the-art sketch-based mesh cutting methods, we conduct a large scale user study which was carried out via extensive user experiments. To address the objective assessment of the performances of different algorithms, a complete framework with various intuitive sketch-based interfaces was developed to enable interactive mesh cutting by simply drawing sketches on mesh surface. To address the subjective assessment of user’s experience, we presented the analysis of the user’s responses, where the analytic hierarchy process was employed to quantify the performance of algorithms in terms of multiple criteria. Our results suggest that human in general agree on the evaluation of the performance of algorithms, and some sketch-based mesh cutting methods are consistently more favorable than others. The importance of our work lies in studying users’ experience on operating various sketch-based mesh cutting tools, to motivate more practical interactive systems in the future.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号