首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
用户对Web网站访问兴趣可以通过页面的浏览顺序表现出来,Web站点的访问日志记录了用户访问页面的详细信息.介绍Web站点访问日志挖掘的相关知识,并定义新的兴趣度,相似度和聚类中心,提出了一种基于用户访问兴趣的路径聚类算法,最后通过实验来验证这种算法的有效性.  相似文献   

2.
模糊聚类在Web信息检索中的应用研究   总被引:4,自引:0,他引:4  
何鹏  徐立臻  庄晓青 《计算机工程》2002,28(10):241-242,260
如何从大量信息中快速、有效地进行Web信息检索已经成为一项重要的研究课题,但是传统的搜索引擎所提供的搜索结果仅仅按照与查询的相关性从高到低排成一个有序列表,不具备层次性,用户使用起来并不方便,该文基于Web资源中词语的不分明性即模糊性,提出采用模糊聚类的方法自动组织搜索引擎的结果来解决这个问题。  相似文献   

3.
PCCS部分聚类分类:一种快速的Web文档聚类方法   总被引:15,自引:1,他引:15  
PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片中筛选出自已所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类分法,首先对一部分文档进行聚类,然后根据聚类结果形成类模型对其余的文档进行分类,采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集,将其余的文档使用Naive-Bayes分类器进行划分,为了提高聚类与分类的效率,提出了一种混合特征选取方法以减少文档表示的维数,重新计算文档中各特征的熵,从中选取具有最大熵值的前若干个特征,或者基于持久分类模型中的特征集来进行特征选取,实验证明,部分聚类方法能够快速,准确地根据文档主题内容组织Web文档,使用户在更高的术题层次上来查看搜索引擎返回的结果,从以主题相似的文档所形成的集簇中选取相关文档。  相似文献   

4.
基于聚类的体质数据库中的知识发现   总被引:1,自引:0,他引:1  
数据挖掘是当今人工智能、机器学习和统计学等多门学科交叉研究热点,旨在从大量原始数据中提取出有价值事先未知并能被人理解的模式。本文以2005年上海市国民体质监测数据为分析对象,采用聚类分析挖掘技术对体质影响因素进行分析,为体质健康研究提供依据。经分析,得出立定跳远跳得远的,双脚连续跳跳得少等结论。说明用基于聚类技术解决体质方面的问题具有实际应用价值。  相似文献   

5.
基于统计的系统聚类分析是一种重要的数据挖掘算法。研究了一种多重系统聚类模型及其算法实现,把变量聚类和样本聚类相结合,并使用了两种方法赋值样本数据阵,使聚类结果更加直观。  相似文献   

6.
多重系统聚类挖掘算法及其实现   总被引:5,自引:1,他引:4  
基于统计的系统聚类分析是一种重要的数据挖掘算法,但单纯的样本系统聚类有一些局限;该文提出一种多重系统聚类模型及其算法实现,将变量聚类和样本聚类结合起来,使分类性能有了较大提高.  相似文献   

7.
一种增量式模糊聚类算法   总被引:5,自引:2,他引:5  
随着数据库中数据的迅速增长,新增数据对聚类结果有很大影响,而重新聚类势必严重浪费计算资源。本文提出了一种增量式的模糊聚类算法,合理地解决了新增数据对象的聚类及类属问题,并应用实例说明了新老算法具有同样的可靠性,但新算法大大提高了聚类分析与知识维护的效率。  相似文献   

8.
基于用户访问兴趣的路径聚类研究   总被引:1,自引:0,他引:1  
网站可以通过关注用户访问路径、访问某个页面的时间、在此页面的驻留时间以及由那个链接到此页面的URL等信息,利用聚类技术将具有相同兴趣的用户分类。文章将介绍一种新的基于用户访问兴趣的路径聚类算法,其中定义了新的兴趣度、相似度、及聚类中心。最后采用龙城热线网站日志进行真实测试,实验的结果是成功的。  相似文献   

9.
面向属性的归纳与概念聚类   总被引:2,自引:0,他引:2  
面向属性的归纳是新近提出的一种广泛用于数据库中的知识发现的方法,提出这种方法与一种机器学习方法--概念聚类之间的紧密联系,并描述如何使用一个概念聚类算法进行面向属性的归纳。  相似文献   

10.
快速发现任意形状的聚类   总被引:2,自引:0,他引:2  
提出FFCAS(Fast Finding the Clusters of Arbitrary Shape)聚类算法,用于快速发现任意形状的聚类,先将每个对象分配到很小的ε-邻域,即原子聚类,然后找出高浓度的核心原子聚类,再消除所有的冗余原子聚类,仅用边界来表示聚类,大大减小了存储空间。因为ε是一个很小的值,原子聚类能自然地描述聚类。该算法最坏时间复杂度为O(n log n)(n为数据库中的对象个数),只需访问一次数据库,实验表明,FFCAS运行时间与数据库中的对象数目成线性关系,能发现任意形状的聚类,对异类的敏感性低,对大型、高维数据库也有效。  相似文献   

11.
Web页面和客户群体的模糊聚类算法   总被引:17,自引:0,他引:17  
web日志挖掘在电子商务和个性化web等方面有着广泛的应用.文章介绍了一种web页面和客户群体的模糊聚类算法.在该算法中,首先根据客户对Web站点的浏览情况分别建立Web页面和客户的模糊集,在此基础上根据Max—Min模糊相似性度量规则构造相应的模糊相似矩阵,然后根据模糊相似矩阵直接进行聚类.实验结果表明该算法是有效的.  相似文献   

12.
Clustering Web data is one important technique for extracting knowledge from the Web. In this paper, a novel method is presented to facilitate the clustering. The method determines the appropriate number of clusters and provides suitable representatives for each cluster by inference from a Bayesian network. Furthermore, by means of the Bayesian network, the contents of the Web pages are converted into vectors of lower dimensions. The method is also extended for hierarchical clustering, and a useful heuristic is developed to select a good hierarchy. The experimental results show that the clusters produced benefit from high quality.  相似文献   

13.
一种用于Web文本聚类的特征选择方法   总被引:1,自引:0,他引:1  
特征选择已经广泛地应用在文本分类和文本聚类中,相对于无监督的特征选择方法,有监督的特征选择方法在过滤噪音等方面更为有效.但是,由于缺少类标签,它很难应用到文本聚类中.提出了一种针对Web文本聚类的新的特征选择算法--基于k-means的多特征联合选择算法(MFCC).MFCC充分利用了一个特征空间的中间聚类结果来帮助另一个特征空间进行特征选择.实验证明,MFCC有效地提高了聚类质量.  相似文献   

14.
基于归纳化会话的网络用户的聚类   总被引:7,自引:0,他引:7  
为了发掘具有相似的访问兴趣的网络用户,探讨了网络用户聚类的问题。网络用户的访问信息从服务器日志文件中抽取出来,组织成会话向量的形式,会话描述为一段时间内用户向服务器发出一系列访问请求。为了减少会话向量的维度,根据网页的层次性,采用面向属性的推理方法,对这些会话进行了归纳,并且定义了一个新的距离测度来描述两个会话之间的相似度,最后采用某种非欧几里德的关系聚类算法聚类这些归纳化的会话。实验表明,这种方法对在大型的日志文件集中挖掘出有意义的网络用户的分类是高效可行的。  相似文献   

15.
在分析现有挖掘用户频繁路径技术不足的基础上提出算法MUFPS(Mining User Frequent Paths based on Supportability).该算法主要通过用户会话文件计算出所有被请求页面各自的支持度总和,并结合Web站点结构挖掘出该用户的频繁访问路径.通过实验对比证明该算法能有效地提高挖掘效率,同时保证了挖掘结果的准确性和可靠性.  相似文献   

16.
近年来,随着网络数据挖掘技术的迅猛发展,如何从搜索引擎查询日志中找到有用的信息成为一个重要的研究方向.首先详细讨论了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及噪声数据对该算法的影响,指出了Chan的改进算法中的一个错误,最后提出一个新的改进算法,并且通过模拟实验对几种不同的算法进行了对比.  相似文献   

17.
挖掘基于Web的访问路径模式   总被引:5,自引:0,他引:5  
本文介绍了一种新的基于Web的序列模式-访问路径模式挖掘问题,给出了问题的形式化描述以及挖掘访问路径模式的方法,提出了识别最大前向访问路径和发现大访问路径的算法。  相似文献   

18.
Personal name disambiguation is an important task in social network extraction, evaluation and integration of ontologies, information retrieval, cross‐document coreference resolution and word sense disambiguation. We propose an unsupervised method to automatically annotate people with ambiguous names on the Web using automatically extracted keywords. Given an ambiguous personal name, first, we download text snippets for the given name from a Web search engine. We then represent each instance of the ambiguous name by a term‐entity model (TEM), a model that we propose to represent the Web appearance of an individual. A TEM of a person captures named entities and attribute values that are useful to disambiguate that person from his or her namesakes (i.e., different people who share the same name). We then use group average agglomerative clustering to identify the instances of an ambiguous name that belong to the same person. Ideally, each cluster must represent a different namesake. However, in practice it is not possible to know the number of namesakes for a given ambiguous personal name in advance. To circumvent this problem, we propose a novel normalized cuts‐based cluster stopping criterion to determine the different people on the Web for a given ambiguous name. Finally, we annotate each person with an ambiguous name using keywords selected from the clusters. We evaluate the proposed method on a data set of over 2500 documents covering 200 different people for 20 ambiguous names. Experimental results show that the proposed method outperforms numerous baselines and previously proposed name disambiguation methods. Moreover, the extracted keywords reduce ambiguity of a name in an information retrieval task, which underscores the usefulness of the proposed method in real‐world scenarios.  相似文献   

19.
Web挖掘研究   总被引:285,自引:4,他引:285  
因特网目前是一个巨大,分布广泛,全球性的信息服务中心,它涉及新闻,广告,消费信息,金融管理,教育,政府,电子商务和许多其它信息服务,Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源,Web挖掘就是从Web活动中抽取感兴趣的潜在有用模式和隐藏的信息,对Web挖掘最新技术及发展方向做了全面分析,包括Web结构挖掘,多层次Web数据仓库方法以及W eb,Log挖掘等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号