首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
为提高聚类算法的准确性,通过先对数据集抽样,再对样本数据进行K-means聚类,选出聚类中心,然后为整个数据集中的每个簇单独设置一个阈值的方法对传统的BIRCH算法进行改进。实验表明,在同等条件下,改进后的算法相比传统的BIRCH算法精确度更高,耗时更少。  相似文献   

2.
基于用户任务级的Web日志聚类   总被引:2,自引:0,他引:2  
利用改进的用户描述计算公式和启发式聚类方法 ,进行基于用户任务级的 Web日志聚类 ,产生簇用户访问模式 ,进行有效的推荐和个性化服务 .结果表明 ,算法具有较好的聚类质量和较高的性能 .它可以成功地应用到 Web日志挖掘中 .  相似文献   

3.
Web文本挖掘     
简要介绍Web挖掘的概念、分类及其功能,重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等。最后对Web文本挖掘的应用领域作了展望。  相似文献   

4.
人工神经网络(ANN)为Web挖掘技术提供了一种新思路.针对传统聚类方法面对大量动态增长的Web日志数据健壮性和灵活性不够的缺点,提出了一种基于自组织映射神经网络的用户信息聚类模型,最后给出的实例证明在此基础上的Web页面的个性化推荐算法能够有效地进行Web页面个性化推荐.  相似文献   

5.
肖继海  崔晓红  桑莉君 《福建电脑》2011,27(5):80-81,72
本文提出一种基于Web挖掘的个性化推荐模型,对web结构数据、内容数据和使用数据进行聚类分析,聚类挖掘结果通过统一的向量空间模式表示,从而为推荐模型提供一致的表示形式。由于集成了上述三种web挖掘结果,在使用数据比较少或web站点内容变化比较频繁的情况下.该模型也能提供高质量的个性化推荐服务。  相似文献   

6.
Web日志挖掘在网络远程教学中的应用   总被引:3,自引:0,他引:3  
随着现代信息技术在远程教育中越来越广泛的应用,网络远程教育模式正逐步成为远程教育的主流。本文对Web日志挖掘在远程教育强中应用流程进行了研究探讨,从而更好地指导了远程教育实践。  相似文献   

7.
通过挖掘Web日志改进站点结构   总被引:8,自引:0,他引:8  
王咏  申瑞民 《计算机工程》2004,30(12):133-135
在一些商业站点中Web页面的结构有时与用户的浏览习惯不相一致,即用户在某个位置去寻找某个特定的页面,而这个页面却买际在另一个位置。该文提出一种算法找出站点中那些实际位置与用户期望位置不相一致的页面。算法的主要思想是如果访问者没有在特定的位置找到所需的页面就会回退,把这个产生回退的位置作为访问者希望相应的页面内容出现的可能的候选期望位置。然后站点管理者可以改进站点的结构,在用户的期望位置增加相应的页面的连接,这样可以使用户能够较为方便地找到所期望的页面。  相似文献   

8.
许高建 《微机发展》2007,17(6):187-190
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

9.
通过对网络Web服务器日志中记录的大量用户信息进行Web日志分析,研究在Web服务器中及其系统中引入和实现Qos控制的机制和策略,了解用户习惯,提高服务质量和效率。  相似文献   

10.
基于Web的文本挖掘技术研究   总被引:2,自引:0,他引:2  
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

11.
基于双Kohonen神经网络的Web用户访问模式挖掘算法   总被引:1,自引:0,他引:1  
本文根据Kohonen自组织特征映射神经网络中学习阶段的性质,运用双Kohonen神经网络组合成新的自组织训练挖掘模型,先使用粗调整训练,加快模型学习速度,紧接着使用微调整训练,提高模型学习精度。实验结果表明,本文提出的双Kohonen神经网络挖掘模型,相对于标准Kohonen神经网络在训练速度和收敛效果上都有一定程度的提高,改善了聚类效果,为挖掘用户的多种兴趣提供了一种可行的方法。  相似文献   

12.
互联网上的数据规模大、种类多、变化快,而且越来越复杂。通过数据挖掘和分析,可以获取有潜在价值的信息。但是,传统的数据挖掘系统在数据存储和计算性能上存在瓶颈。通过使用云计算技术,设计了一个基于Hadoop架构的网页日志数据挖掘和分析平台来解决这个问题。同时,为了提高挖掘效率,为大规模网页日志挖掘实现了Apriori算法的并行化,并使用该平台验证了该行算法的效率。  相似文献   

13.
在Web日志挖掘的过程中,数据预处理是整个Web日志挖掘过程的基础,其直接影响了日志挖掘的质量和结果.由于目前大多数网页都采用框架模式,而传统的预处理技术并没有针对frame页面进行过滤,即使过滤,也会导致页面结构的混乱,从而不能够为路径补充提供正确的信息.基于此,本文提出一种基于重构网站结构的Web日志挖掘数据预处理方法以及基于它的路径补充方法.  相似文献   

14.
基于BP神经网络的数据挖掘方法   总被引:4,自引:0,他引:4  
神经网络的高度参数化特征使它特别灵活,以至于它可以精确的对数据进行分类,成为目前公认的高精度分类器。本文介绍一种基于BP神经网络的数据挖掘的分类方法,并提出了改进思想。  相似文献   

15.
Multi-Instance Learning Based Web Mining   总被引:7,自引:0,他引:7  
In multi-instance learning, the training set comprises labeled bags that are composed of unlabeled instances, and the task is to predict the labels of unseen bags. In this paper, a web mining problem, i.e. web index recommendation, is investigated from a multi-instance view. In detail, each web index page is regarded as a bag, while each of its linked pages is regarded as an instance. A user favoring an index page means that he or she is interested in at least one page linked by the index. Based on the browsing history of the user, recommendation could be provided for unseen index pages. An algorithm named Fretcit-kNN, which employs the Minimal Hausdorff distance between frequent term sets and utilizes both the references and citers of an unseen bag in determining its label, is proposed to solve the problem. Experiments show that in average the recommendation accuracy of Fretcit-kNN is 81.0% with 71.7% recall and 70.9% precision, which is significantly better than the best algorithm that does not consider the specific characteristics of multi-instance learning, whose performance is 76.3% accuracy with 63.4% recall and 66.1% precision.  相似文献   

16.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究。包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

17.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究,包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在Web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

18.
Web日志挖掘中的数据预处理技术研究   总被引:30,自引:0,他引:30  
赵伟  何丕廉  陈霞  谢振亮 《计算机应用》2003,23(5):62-64,67
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文中深入探讨了数据预处理环节的主要任务,并介绍这个过程中一些特殊情况的处理方法。  相似文献   

19.
Web日志挖掘是Web数据挖掘领域中的一个重要研究方向,是通过对Web日志记录的挖掘发现用户访问Web页面的浏览模式用以改进Web站点的性能和组织结构。在介绍Web日志挖掘的原理和技术的基础上对Web日志挖掘中的聚类技术进行了分析研究,并重点讨论了有关模糊聚类算法的原理及计算过程,对这一算法进行了改进后的优化和应用,最后用实例对算法加以验证。  相似文献   

20.
结合使用挖掘和内容挖掘的web推荐服务   总被引:9,自引:1,他引:9  
随着Internet的基础结构不断扩大和其所含信息的持续增长,Internet用户越来越感觉容易在WWW服务中“资源迷向”。提高用户访问效率的方法有页面预取技术,站点动态重构技术和web个性化推荐技术等。现有的大多数web个性化推荐技术主要是基于用户使用记录的数据挖掘方法,没有或很少考虑结合页面内容—这才是用户真正感兴趣的。该文提出一种结合用户使用挖掘和内容挖掘的web推荐服务,该推荐服务根据频繁最大前向访问路径,提出含有导航页和内容页的频繁访问路径图概念,根据滑动窗口内的最近用户访问页面内容和候选推荐集中页面内容相关性,来向用户提供个性化推荐服务。经推荐质量分析,这种方法具有较好的推荐优化能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号