首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于本体的Web页面聚类研究   总被引:4,自引:1,他引:3  
提出了一个基于本体的Web页面聚类系统原型,通过构建一个简单的搜索引擎并对结果进行聚类,大大节省用户发现所需信息的时间.同时将领域本体引入聚类系统中,提高了聚类效率和增强了聚类结果的可解释性.  相似文献   

2.
Web上的数据规模大,动态性强,而通常发现的知识或规则很可能是不精确的、不完备的,为了克服以上困难,将粗糙集概念引入到Web挖掘中,进行Web事务聚类.介绍了将粗糙近似算法嵌入到WEKA平台的过程,充分利用了开源WEKA中的类和可视化功能,扩充了WEKA系统的聚类算法,并对嵌入的算法进行了分析,测试.粗糙近似算法方法能够实现从Web访问日志中聚类Web事务,并且该算法对分类属性的数据具有很高的准确率.  相似文献   

3.
Web模糊聚类方法及其应用   总被引:5,自引:0,他引:5  
本文提出了Web模糊聚类的概念,给出了Web模糊聚美的过程模型WFCM并进行了详细阐述,沦述了Web模糊聚类在Web访问信息挖掘中,尤其是在Web用户聚类和Web页面聚类方面的应用.最后用实例证明了在Web页面聚类中使用Web模糊聚类的可行性。  相似文献   

4.
针对目前Web聚类准确率不高的问题,提出一种基于Web页面链接结构和页面中图片主色调特征的聚类算法。通过分析Web页面中的链接结构和Web页面中所显示图片的主色调来比较页面之间的相似度,对Web站点中的Web页面进行聚类。聚类过程兼顾Web页面结构和页面的主要色彩特征。系统实验结果表明,该算法能有效提高聚类的准确性。  相似文献   

5.
基于Web日志挖掘的Web文档聚类   总被引:3,自引:1,他引:2  
Web日志挖掘是Web挖掘的一种,介绍了Web日志挖掘的一般过程,研究了k-means聚类算法,并分析了k-means聚类算法的不足.k-means聚类算法迭代过程中每次都需要计算每个数据对象到簇质心的距离,使得聚类效率不高,针对这个问题,提出了k-means聚类算法的改进算法,该算法避免了重复计算数据对象到簇质心的距离,并用这两种算法实现了Web文档的聚类.试验结果表明,该改进算法提高了聚类效率.  相似文献   

6.
基于模糊聚类的Web日志挖掘   总被引:10,自引:0,他引:10  
李桂英  李吉桂 《计算机科学》2004,31(12):130-131
本文使用模糊聚类的方法对Web日志进行数据挖掘,实现用户聚类和页面聚类,并设计与实现了一个基于模糊聚类的Web日志挖掘系统。  相似文献   

7.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究,包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在Web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

8.
陈曾  侯进  张登胜  张华忠 《自动化学报》2011,37(11):1356-1359
针对目前图像搜索引擎难以正确把握用户真正意图的问题, 从爬虫Web图像搜索引擎检索结果入手,提出三种聚类算法来提取海量Web图像中的语义区域. 这三种聚类算法包括确定初始化中心的K-means聚类、确定参数的最大期望聚类以及基于半监督的K-means聚类算法. 然后选取显著值较大的显著区域作为语义区域.实验分析比较了三种聚类算法的有效性, 最终实现的图像重排系统能比网络搜索引擎更好地反馈给用户精确而且有序的查询结果.  相似文献   

9.
针对快速发现用户适合度较高的Web服务问题,提出了一种基于用户情境聚类的Web服务发现方法.将聚类与倒排索引技术融入Web服务发现算法,利用BIRCH聚类思想进行用户情境聚类,有效地缩小了Web服务的查找范围,而倒排索引技术则能够快速定位服务,进一步优化了Web服务发现的时间.结合实例和实验,并与其他Web服务发现方法进行比较,结果表明了该方法的服务发现结果和时间效率均优于其他方法.  相似文献   

10.
基于Web页面链接和标签的聚类方法   总被引:1,自引:0,他引:1  
针对目前Web聚类效率和准确率不高的问题,提出一种基于Web页面链接结构和标签信息的聚类方法CWPBLT(clustering web pages based on their links and tags),它是通过分析Web页面中的链接结构和重要标签信息来比较页面之间的相似度,从而对Web站点中的Web页面进行聚类,聚类过程同时兼顾了Web页面结构和页面标签提供的内容信息.实验结果表明,该方法有效地提高了聚类的时间效率和准确性,是对以往仅基于页面主题内容或页面结构聚类方法的改进.  相似文献   

11.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究。包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

12.
徐甜  肖新峰 《微计算机信息》2007,23(21):284-285,283
Web文本挖掘是Web数据挖掘的一个重要研究领域.文本挖掘的主要方法是文本分类和聚类.本文主要讨论了在文本挖掘中文本的表示,以及文本聚类的算法描述.  相似文献   

13.
面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法—I-Match和Shingling—在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.  相似文献   

14.
陈娟  王贤  黄青松 《现代计算机》2006,(9):19-21,62
近几年,网络被在线数据库迅速地深化.在深网中,大量的资料提供了丰富的数据模式,这些模式详细说明了它们的目标领域和查询性能,因此对大规模数据的整合是当前面临的挑战.在数据挖掘中,聚类分析是一个重要方法.本文论述通过查询接口采用凝聚层次聚类方法聚类结构化的Web资源,并采用先聚类后分类的方法稍加改进.实验显示对于聚类Web查询模式,凝聚的层次聚类能正确地组织资料.  相似文献   

15.
用户聚类是Web挖掘的重要部分,而Chameleon算法是一种通用的聚类算法.文中把Chameleon算法应用于Web挖掘,设计了Web用户的聚类,采用J2EE体系架构实现了这一算法,并在此基础上做了改进,实验结果表明,该算法取得了良好的效果.  相似文献   

16.
张万山  肖瑶  梁俊杰  余敦辉 《计算机应用》2014,34(11):3144-3146
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。  相似文献   

17.
基于用户任务级的Web日志聚类   总被引:2,自引:0,他引:2  
利用改进的用户描述计算公式和启发式聚类方法 ,进行基于用户任务级的 Web日志聚类 ,产生簇用户访问模式 ,进行有效的推荐和个性化服务 .结果表明 ,算法具有较好的聚类质量和较高的性能 .它可以成功地应用到 Web日志挖掘中 .  相似文献   

18.
Web文本挖掘系统及聚类分析算法   总被引:2,自引:0,他引:2  
朱克斌  唐菁  杨炳儒 《计算机工程》2004,30(13):138-139,183
给出了Web文本挖掘系统WTMS的系统总体结构图,开发并实现了基于SOM的Web文档层次聚类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。  相似文献   

19.
基于Web的数据挖掘技术研究及其在电子商务中的应用   总被引:1,自引:0,他引:1  
基于Web的数据挖掘是一种结合了数据挖掘和互联网系统的热门研究课题.本文首先综述了基于Web的几类数据挖掘技术,包括Web内容挖掘、Web的访问挖掘、Web页面聚类以及用户频繁访问路径发现等技术.在此基础上又着重介绍了Web数据挖掘技术在电子商务中的具体应用.  相似文献   

20.
因子分析在基于用户兴趣的Web文档聚类中的应用   总被引:1,自引:0,他引:1  
通过对实际Web访问日志的统计分析认为,在日志中用户的兴趣具有集中性,这说明用户由稳定兴趣驱动访问Web的频率远远高于偶然兴趣的驱动,因此一定时间段的Web访问日志中一定蕴含了用户的稳定兴趣.本文试图利用因子分析理论从用户访问频率矩阵中挖掘出用户的稳定兴趣因子,以此构造用户兴趣空间,并在用户兴趣空间中进行Web文档聚类.该用户兴趣空间突出了用户的共同兴趣,是一个正交空间.实验结果表明,用户兴趣空间中的Web文档聚类优于直接在用户访问频率矩阵(即用户空间)中的聚类.同时,空间的转换达到了数据压缩的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号