共查询到19条相似文献,搜索用时 62 毫秒
1.
用户对Web网站访问兴趣可以通过页面的浏览顺序表现出来,Web站点的访问日志记录了用户访问页面的详细信息.介绍Web站点访问日志挖掘的相关知识,并定义新的兴趣度,相似度和聚类中心,提出了一种基于用户访问兴趣的路径聚类算法,最后通过实验来验证这种算法的有效性. 相似文献
2.
3.
PCCS部分聚类分类:一种快速的Web文档聚类方法 总被引:15,自引:1,他引:15
PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片中筛选出自已所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类分法,首先对一部分文档进行聚类,然后根据聚类结果形成类模型对其余的文档进行分类,采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集,将其余的文档使用Naive-Bayes分类器进行划分,为了提高聚类与分类的效率,提出了一种混合特征选取方法以减少文档表示的维数,重新计算文档中各特征的熵,从中选取具有最大熵值的前若干个特征,或者基于持久分类模型中的特征集来进行特征选取,实验证明,部分聚类方法能够快速,准确地根据文档主题内容组织Web文档,使用户在更高的术题层次上来查看搜索引擎返回的结果,从以主题相似的文档所形成的集簇中选取相关文档。 相似文献
4.
5.
周莹 《电脑编程技巧与维护》2013,(8):28-30
基于统计的系统聚类分析是一种重要的数据挖掘算法。研究了一种多重系统聚类模型及其算法实现,把变量聚类和样本聚类相结合,并使用了两种方法赋值样本数据阵,使聚类结果更加直观。 相似文献
6.
多重系统聚类挖掘算法及其实现 总被引:5,自引:1,他引:4
基于统计的系统聚类分析是一种重要的数据挖掘算法,但单纯的样本系统聚类有一些局限;该文提出一种多重系统聚类模型及其算法实现,将变量聚类和样本聚类结合起来,使分类性能有了较大提高. 相似文献
7.
一种增量式模糊聚类算法 总被引:5,自引:2,他引:5
随着数据库中数据的迅速增长,新增数据对聚类结果有很大影响,而重新聚类势必严重浪费计算资源。本文提出了一种增量式的模糊聚类算法,合理地解决了新增数据对象的聚类及类属问题,并应用实例说明了新老算法具有同样的可靠性,但新算法大大提高了聚类分析与知识维护的效率。 相似文献
8.
基于用户访问兴趣的路径聚类研究 总被引:1,自引:0,他引:1
网站可以通过关注用户访问路径、访问某个页面的时间、在此页面的驻留时间以及由那个链接到此页面的URL等信息,利用聚类技术将具有相同兴趣的用户分类。文章将介绍一种新的基于用户访问兴趣的路径聚类算法,其中定义了新的兴趣度、相似度、及聚类中心。最后采用龙城热线网站日志进行真实测试,实验的结果是成功的。 相似文献
9.
面向属性的归纳与概念聚类 总被引:2,自引:0,他引:2
面向属性的归纳是新近提出的一种广泛用于数据库中的知识发现的方法,提出这种方法与一种机器学习方法--概念聚类之间的紧密联系,并描述如何使用一个概念聚类算法进行面向属性的归纳。 相似文献
10.
快速发现任意形状的聚类 总被引:2,自引:0,他引:2
提出FFCAS(Fast Finding the Clusters of Arbitrary Shape)聚类算法,用于快速发现任意形状的聚类,先将每个对象分配到很小的ε-邻域,即原子聚类,然后找出高浓度的核心原子聚类,再消除所有的冗余原子聚类,仅用边界来表示聚类,大大减小了存储空间。因为ε是一个很小的值,原子聚类能自然地描述聚类。该算法最坏时间复杂度为O(n log n)(n为数据库中的对象个数),只需访问一次数据库,实验表明,FFCAS运行时间与数据库中的对象数目成线性关系,能发现任意形状的聚类,对异类的敏感性低,对大型、高维数据库也有效。 相似文献
11.
Web页面和客户群体的模糊聚类算法 总被引:17,自引:0,他引:17
web日志挖掘在电子商务和个性化web等方面有着广泛的应用.文章介绍了一种web页面和客户群体的模糊聚类算法.在该算法中,首先根据客户对Web站点的浏览情况分别建立Web页面和客户的模糊集,在此基础上根据Max—Min模糊相似性度量规则构造相应的模糊相似矩阵,然后根据模糊相似矩阵直接进行聚类.实验结果表明该算法是有效的. 相似文献
12.
Morteza Haghir Chehreghani Mostafa Haghir Chehreghani Hassan Abolhassani 《Computational Intelligence》2012,28(2):209-233
Clustering Web data is one important technique for extracting knowledge from the Web. In this paper, a novel method is presented to facilitate the clustering. The method determines the appropriate number of clusters and provides suitable representatives for each cluster by inference from a Bayesian network. Furthermore, by means of the Bayesian network, the contents of the Web pages are converted into vectors of lower dimensions. The method is also extended for hierarchical clustering, and a useful heuristic is developed to select a good hierarchy. The experimental results show that the clusters produced benefit from high quality. 相似文献
13.
一种用于Web文本聚类的特征选择方法 总被引:1,自引:0,他引:1
特征选择已经广泛地应用在文本分类和文本聚类中,相对于无监督的特征选择方法,有监督的特征选择方法在过滤噪音等方面更为有效.但是,由于缺少类标签,它很难应用到文本聚类中.提出了一种针对Web文本聚类的新的特征选择算法--基于k-means的多特征联合选择算法(MFCC).MFCC充分利用了一个特征空间的中间聚类结果来帮助另一个特征空间进行特征选择.实验证明,MFCC有效地提高了聚类质量. 相似文献
14.
基于归纳化会话的网络用户的聚类 总被引:7,自引:0,他引:7
为了发掘具有相似的访问兴趣的网络用户,探讨了网络用户聚类的问题。网络用户的访问信息从服务器日志文件中抽取出来,组织成会话向量的形式,会话描述为一段时间内用户向服务器发出一系列访问请求。为了减少会话向量的维度,根据网页的层次性,采用面向属性的推理方法,对这些会话进行了归纳,并且定义了一个新的距离测度来描述两个会话之间的相似度,最后采用某种非欧几里德的关系聚类算法聚类这些归纳化的会话。实验表明,这种方法对在大型的日志文件集中挖掘出有意义的网络用户的分类是高效可行的。 相似文献
15.
在分析现有挖掘用户频繁路径技术不足的基础上提出算法MUFPS(Mining User Frequent Paths based on Supportability).该算法主要通过用户会话文件计算出所有被请求页面各自的支持度总和,并结合Web站点结构挖掘出该用户的频繁访问路径.通过实验对比证明该算法能有效地提高挖掘效率,同时保证了挖掘结果的准确性和可靠性. 相似文献
16.
近年来,随着网络数据挖掘技术的迅猛发展,如何从搜索引擎查询日志中找到有用的信息成为一个重要的研究方向.首先详细讨论了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及噪声数据对该算法的影响,指出了Chan的改进算法中的一个错误,最后提出一个新的改进算法,并且通过模拟实验对几种不同的算法进行了对比. 相似文献
17.
挖掘基于Web的访问路径模式 总被引:5,自引:0,他引:5
本文介绍了一种新的基于Web的序列模式-访问路径模式挖掘问题,给出了问题的形式化描述以及挖掘访问路径模式的方法,提出了识别最大前向访问路径和发现大访问路径的算法。 相似文献
18.
Personal name disambiguation is an important task in social network extraction, evaluation and integration of ontologies, information retrieval, cross‐document coreference resolution and word sense disambiguation. We propose an unsupervised method to automatically annotate people with ambiguous names on the Web using automatically extracted keywords. Given an ambiguous personal name, first, we download text snippets for the given name from a Web search engine. We then represent each instance of the ambiguous name by a term‐entity model (TEM), a model that we propose to represent the Web appearance of an individual. A TEM of a person captures named entities and attribute values that are useful to disambiguate that person from his or her namesakes (i.e., different people who share the same name). We then use group average agglomerative clustering to identify the instances of an ambiguous name that belong to the same person. Ideally, each cluster must represent a different namesake. However, in practice it is not possible to know the number of namesakes for a given ambiguous personal name in advance. To circumvent this problem, we propose a novel normalized cuts‐based cluster stopping criterion to determine the different people on the Web for a given ambiguous name. Finally, we annotate each person with an ambiguous name using keywords selected from the clusters. We evaluate the proposed method on a data set of over 2500 documents covering 200 different people for 20 ambiguous names. Experimental results show that the proposed method outperforms numerous baselines and previously proposed name disambiguation methods. Moreover, the extracted keywords reduce ambiguity of a name in an information retrieval task, which underscores the usefulness of the proposed method in real‐world scenarios. 相似文献