首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 23 毫秒
1.
基于Web日志挖掘的Web文档聚类   总被引:3,自引:1,他引:2  
Web日志挖掘是Web挖掘的一种,介绍了Web日志挖掘的一般过程,研究了k-means聚类算法,并分析了k-means聚类算法的不足.k-means聚类算法迭代过程中每次都需要计算每个数据对象到簇质心的距离,使得聚类效率不高,针对这个问题,提出了k-means聚类算法的改进算法,该算法避免了重复计算数据对象到簇质心的距离,并用这两种算法实现了Web文档的聚类.试验结果表明,该改进算法提高了聚类效率.  相似文献   

2.
一种层次化的检索结果聚类方法   总被引:3,自引:1,他引:2  
检索结果聚类能够帮助用户快速地浏览搜索引擎返回的结果.传统的聚类方法由于不能生成有意义的类别标签因此是不适合的,为了改善检索结果层次化聚类的效果,采用了基于标签的聚类算法,提出了将DF、查询日志、查询词上下文特征融合的类别标签抽取算法,并以抽取的标签构造基础类别图,通过GBCA算法构建层次化聚类结果.实验证明了多特征融合模型的有效性;GBCA算法在类别标签抽取和F-Measure两个评价指标上都比STC和Snaket算法有很大的提高.  相似文献   

3.
针对现代大型系统中系统日志的异常检测问题,提出了一种基于自动日志分析的异常检测方法(CSCM).该方法通过在预聚类下结合细化分析与多视角的异常提取过程,来实现系统日志的异常检测.首先,引入信息熵以提取日志信息量;其次,基于Canopy预聚类过程提取子集交叠数据,以缩小计算范围;利用谱聚类进行细化分析,并结合预聚类结果以...  相似文献   

4.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究。包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

5.
基于改进的模糊聚类算法的Web日志挖掘   总被引:1,自引:1,他引:0  
Web日志挖掘是Web数据挖掘领域中的一个重要研究方向,是通过对Web日志记录的挖掘发现用户访问Web页面的浏览模式用以改进Web站点的性能和组织结构。在介绍Web日志挖掘的原理和技术的基础上对Web日志挖掘中的聚类技术进行了分析研究,并重点讨论了有关模糊聚类算法的原理及计算过程,对这一算法进行了改进后的优化和应用,最后用实例对算法加以验证。  相似文献   

6.
通过对WEB服务器日志文件进行分析,可以发现相似的客户群体、相关WEB页面以及频繁访问路径.这里提出了一种新颖的WEB日志挖掘算法,该算法是以服务器日志文件中的不同会话为聚类对象,通过对不同会话实施空间距离聚类和层次结构比较聚类,最终得到了满意的聚类结果.最后,给出了一个应用实例,实例表明,该方法是有效可行的.  相似文献   

7.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究,包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在Web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

8.
一种Web用户行为聚类算法   总被引:13,自引:0,他引:13  
提出了一种新的路径相似度系数计算方法,并使之与雅可比相似系数结合,用于计算用户访问行为的相似度,在此基础之上又提出了一种分析web用户行为的聚类算法(FCC)。通过挖掘Web日志,找出具有相似行为的web用户,由于FCC聚类算法过滤了小于指定阚值的相似度系数,大大缩小了数据规模,很好地解决了其他聚类算法(如层次聚类)在高堆空间聚类时的“堆数灾难”问题,最后的实验结果很好。  相似文献   

9.
苏云辉 《福建电脑》2010,26(3):84-84,99
在Web日志挖掘中,存在两种类型的聚类:用户聚类和页面聚类。本文提出的Web用户群体和相关页面聚类算法,直接利用用户对页面的访问频率,如实体现用户的访问行为,具有较高的准确性,能够确定合理的聚类结果数目。其子类间的相对位置能反映出元素间相似程度的高低,还解决了聚类中普遍存在的子类间元素重复问题。  相似文献   

10.
翁伟  朱顺痣  钟瑛 《福建电脑》2013,29(1):1-3,6
研究了海量Web日志用户聚类的时间效率和准确性问题,采用构建访问路径树的方法删除重复路径,大大减少数据空间,然后根据访问时间定义相似性,提出改进的?截聚类算法,能够保证同类用户两两相似,类间用户互不相似,实验表明这种算法提高了聚类的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号