共查询到20条相似文献,搜索用时 125 毫秒
1.
Web日志中用户频繁路径快速挖掘算法 总被引:10,自引:0,他引:10
Web访问志中含有大量用户浏览信息,从中有效挖掘出用户频繁路径是建立自适用化网站的必要前提。该文在Apriori算法和有向图存储结构的基础上,提出了会话矩阵和遍历矩阵的概念,设计了用户频繁路径快速挖掘算法:首先利用会话矩阵筛选出满足一定阈值条件的频繁一项集,这样避免产生大量中间项;然后在相似客户群体内,对页面快速聚类,得到相关联页面;最后根据遍历矩阵对相关联页面进行路径合并,得出频繁路径。实验表明此算法的准确性和快速性。 相似文献
2.
基于访问路径树的Web频繁访问路径挖掘算法研究 总被引:2,自引:0,他引:2
频繁访问路径发现是Web数据挖掘的重要研究内容。提出了一种挖掘连续频繁访问路径的高效算法:PS2算法,该算法利用访问路径树挖掘频繁扩展子路径,只需一次数据库扫描,试验表明该算法在效率上优于类Apriori的算法。 相似文献
3.
HU Jing-fang 《数字社区&智能家居》2008,(16)
本文旨在研究基于Web环境下利用关联规则对Web日志挖掘的数据分析系统。把关联规则的概念引入到Web日志挖掘中,将用户的访问路径以关联规则的形式表现出来,其目的在于从用户访问超文本系统的行为中发现用户的访问模式。然后在Apriori挖掘算法思想的基础上,对其改造,给出了适合挖掘用户访问频繁路径的类Apriori算法。最后设计开发了一个Web日志数据分析系统。此系统主要包含三个功能模块:数据预处理模块、智能分析模块和基本分析模块 相似文献
4.
胡静芳 《数字社区&智能家居》2008,(6):1190-1191
本文旨在研究基于Web环境下利用关联规则对Web日志挖掘的数据分析系统。把关联规则的概念引入到web日志挖掘中,将用户的访问路径以关联规则的形式表现出来,其目的在于从用户访问超文本系统的行为中发现用户的访问模式。然后在砷riori挖掘算法思想的基础上,对其改造,给出了适合挖掘用户访问频繁路径的类Apriori算法。最后设计开发了一个Web日志数据分析系统。此系统主要包含三个功能模块:数据预处理模块、智能分析模块和基本分析模块 相似文献
5.
挖掘频繁访问模式是Web日志挖掘的一个重要任务。针对类Apriori算法和GITC算法的不足,提出了基于双亲链的单次扫描求交的Web频繁访问模式挖掘算法—BIPL,该算法首先对用户的访问模式两两进行交集运算,生成候选访问模式,并在求交集过程中保存各个候选访问模式的双亲模式,然后通过简单的求和运算,计算出各个候选访问模式的支持数。最后通过理论分析和实验验证,该算法是稳定的和高效的。 相似文献
6.
本文在对Web日志挖掘理论和Apriori算法研究的基础上,设计和实现了Web访问日志挖掘系统,并将该挖掘系统应用于学院网络中心的"招生信息网"上,对Web服务器的日志记录进行了挖掘实验,找出用户的频繁访问路径,得到较为理想的结果。 相似文献
7.
针对现有Web资源访问模式缺乏针对性、信息冗余、缺乏语义等缺点,提出一种区别于传统Web结构的新的目录概念--语义目录,对目录的生成方法提出了解决方案.利用类Apriori算法对用户日志进行挖掘得到频繁页面规则集.本体Agent对规则集进行提取,得到的本体元和用户模式分别存储于本体知识库和频繁路径序列模式树(FRSP-tree)中,并且在FRSP-tree树结点中加入指向本体元的指针,使遍历FRSP-tree树生存的目录具有语义性和针对性. 相似文献
8.
一种基于有向树挖掘Web日志中最大频繁访问模式的方法 总被引:6,自引:0,他引:6
提出了一种基于Apriori思想的挖掘最大频繁访问模式的s Tree算法。该算法使用有向树表示用户会话,能挖掘出最大前向引用事务和用户的浏览偏爱路径;使用一种基于内容页面优先的支持度计算方法,能挖掘出传统算法不能发现的特定的用户访问模式;使用频繁模式树连接分层的频繁弧克服了图结构数据挖掘算法中直接连接两个频繁模式树要判断连接条件的缺点,同时采用预剪枝策略,降低了算法的开销。实验表明,s Tree算法具有可扩展性,运行效率比直接采用图结构数据挖掘算法要高。 相似文献
9.
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题.在经典Apriori算法基础上给出了基于SQL的Apriori算法.对Web日志挖掘进行数据预处理的基础上,利用算法挖掘最大频繁访问页面集.实验结果表明算法的效率较好,并有助于促进网站的建设. 相似文献
10.
传统的频繁路径挖掘分析主要通过关联规则算法实现,但其在处理大型数据集时,会产生占用内存过多,数据处理速度慢等问题,对此提出一种基于Fuzzy [c]-means聚类算法的并行Apriori算法模型。该模型通过Fuzzy [c]-means算法完成对原始数据集的聚类分析,将同一区域的物流路径数据划分到内部相似度较高的数据类,并利用Apriori算法对各数据类中的频繁模式进行挖掘分析,进而获得各区域的物流频繁路径。同时通过Hadoop平台实现算法的并行化,有效提高算法运行效率和质量。通过对物流频繁路径的挖掘分析,使管理者更清楚货物流向,可为配送路径优化等决策提供支持。 相似文献
11.
基于用户访问事务文法的序列关联规则发现 总被引:4,自引:0,他引:4
在Web挖掘中,应用关联规则发现方法可以发现Web页面之间用户访问的关联度.由于Web站点内含丰富的页面结构信息,也由于用户的访问总是要遵循一定的访问顺序,因此提出一种新的可以发现用户访问序列之间关联度的方法——序列关联规则发现方法.该方法首先得到用户访问事务;然后根据正则文法,定义了一种新的用户访问事务文法,用于从用户访问事务中得到用户序列访问事务;最后应用关联规则发现算法进而发现序列关联规则.为了进一步评价所发现的序列关联规则,引入了互信息的概念.发现的序列关联规则可以帮助Web站点的设计者更好地理解用户的访问,以用于调整Web站点的结构. 相似文献
12.
Apriori算法是一种找频繁项集的基本算法,它常常被用于单维关联规则的数据挖掘,本文结合数据立方体技术对Apriori算法做了一些变形,给出了一种适用于维间关联规则挖掘的算法,并将此算法结合Apriori算法,在教学管理系统中挖掘出混合维间的关联规则。 相似文献
13.
针对信息检索中存在的词不匹配问题,提出了基于频繁项集和负关联规则挖掘的局部反馈查询扩展模型及其算法.该算法对前列n篇初检文档挖掘频繁项集和非频繁项集,并从频繁项集中提取关联词;从频繁项集和非频繁项集中挖掘负关联规则,提取负关联规则后件作为负关联词,计算负关联词与整个原查询词的相关性;根据相关性删除关联词库中与负关联词相同的词项,将余下的关联词项作为最终扩展词,并与原查询组合成新查询,实现查询扩展.实验结果表明,该算法能发现虚假的负关联词,有效地提高和改善信息检索性能. 相似文献
14.
针对现有的基于模式的序列分类算法对于生物序列存在分类精度不理想、模型训练时间长的问题,提出密度感知模式,并设计了基于密度感知模式的生物序列分类算法——BSC。首先,在生物序列中挖掘具有"密度感知"的频繁序列模式;然后,对挖掘出的频繁序列模式进行筛选、排序制定成分类规则;最后,通过分类规则对没有分类的序列进行分类预测。在4组真实生物序列中进行实验,分析了BSC算法参数对结果的影响并提供了推荐参数设置;同时分类结果表明,相比其他四种基于模式的分类算法,BSC算法在实验数据集上的准确率至少提高了2.03个百分点。结果表明,BSC算法有较高的生物序列分类精度和执行效率。 相似文献
15.
采掘关联规则是数据采掘的重要研究内容.本文针对交易项目中广泛存在的包含和泛化关系,充分利用已采掘出交易项目集的频繁模式集合,提出了一种快速的基于概念提升的多层次关联规则更新采掘方法与算法UMARCP. 相似文献
16.
17.
LIU Xiao-na 《数字社区&智能家居》2008,(9)
简要地介绍了关联规则,通过对关联分析的经典算法-Apriori算法的分析,发现了经典算法Apriori算法的缺陷,给出了改进的关联规则算法FARM_New算法和基于筛选压缩的Apriori挖掘算。并将其应用到教学质量评估系统中进行对比分析。 相似文献
18.
19.
20.
挖掘关联规则是数据挖掘领域的一个重要研究方向,人们已经提出了许多用于发现数据库中关联规则的算法,但对关联规则的增量维护问题的研究较少.深入分析了增量更新情况,使用了目前较高效的最大频繁模式挖掘算法FP-Max,并对其进行改进.基本思想:①基于FP-树;②考虑了数据集中,数据增加情况下FP-树的更新;③对FP-Max算法进行改进来更新、维护已经挖掘出来的最大频繁模式. 相似文献