共查询到20条相似文献,搜索用时 93 毫秒
1.
Web日志是目前Web数据挖掘的重要研究方向。数据预处理是Web日志挖掘中的关键技术。详细的介绍了Web日志挖掘的预处理过程。数据预处理包括数据清理、识别用户、识别会话和框架页面清理、路径补充。用户识别后,框架页面降低了数据挖掘的效率,可以通过过滤框架页面大幅度减少产生的无效页面数。 相似文献
2.
3.
Web日志挖掘中数据预处理技术的研究 总被引:2,自引:1,他引:1
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果.详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法.在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整.然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面.实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合. 相似文献
4.
会话识别是Web日志预处理过程中的一个重要环节,针对传统会话识别的不足,提出一种改进的会话识别算法.在识别出具体的用户之后,过滤大量的框架网页;然后根据每个页面的内容及网站结构,构造出相对合理的页面访问时间阈值,并以此阈值来进行用户的会话识别.最后通过实验数据,与几种传统的会话识别方法进行了比较,表明该算法更为合理有效. 相似文献
5.
6.
一种改进的Web日志会话识别方法 总被引:4,自引:0,他引:4
会话识别是Web日志挖掘中的数据预处理中的一个重要步骤.文中提出了一种改进的会话识别方法.首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阈值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整.通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性. 相似文献
7.
8.
9.
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提。通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度。在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类。实验表明改进的FCM算法的有效性。 相似文献
10.
模糊C均值聚类算法在Web使用挖掘上的应用研究 总被引:5,自引:3,他引:2
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提.通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度.在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类.实验表明改进的FCM算法的有效性. 相似文献
11.
数据挖掘中数据预处理的研究与实现* 总被引:18,自引:1,他引:17
数据预处理将原始的真实数据库转换成适于数据挖掘的挖掘数据库,为挖掘算法更好的实现以及挖掘结果形象的显示打下了良好的基础。针对结构化数据讨论了数据预处理的两个目标:消除现实数据库中的数据缺陷;为数据挖掘做准备。并在此基础上,介绍了数据挖掘软件KDD中数据预处理技术的实现。 相似文献
12.
13.
14.
To solve the problem of query-by-example in multimedia audio data, we analyze the characteristics of wavelet multiresolution, and propose a method for searching audio data using wavelet multiresolution pyramidal algorithm. First, we preprocess 100 audio data files by transforming them into wavelet coefficient files with audio data and query data. And then we search these wavelet coefficient files using the different hierarchy pyramidal algorithms. By comparing our method with the method using wavelet approximate coefficient algorithms, we found that our method is highly efficient and reduces the search time without influencing the retrieval precision. 相似文献
15.
16.
17.
基于Web日志的数据预处理研究 总被引:1,自引:0,他引:1
详细介绍Web日志挖掘的数据预处理过程.通过对预处理的结果用户会话文件进行处理,构造出扩展有向树模型,并从每个用户会话文件中发现该用户所有的最大向前引用路径,为实施Web日志挖掘算法提供数据基础. 相似文献
18.
介绍了一种Web挖掘的分类,包括Web内容挖掘、Web结构挖掘和Web使用挖掘。讨论了Web使用挖掘过程的三个步骤,即数据获取与数据预处理、模式发现和模式分析,详细分析了每一个步骤中所使用的技术。指出了目前Web使用挖掘研究存在的不足,给出了Web使用挖掘未来的研究方向。 相似文献
19.
介绍了一个通用的数据工具DMTools。它实现了基于数据库的知识发现的主要过程,可视分析,数据预处理,数据库的知识发现,数据挖掘,模型解释及模型评估算。主要介绍了这个系统的体系结构和各愉的功能。使用本工具。可从各行业的历史业务数据库中挖掘出隐含的有价值的知识,用于决策支持。 相似文献