首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
提出了一种基于服务器日志挖掘的电力业务系统功能推荐服务,首先从电力业务系统服务器日志中获取用户日志数据,然后对含有"脏"数据的用户日志数据进行预处理,以适应数据挖掘与处理;接着由待处理的数据计算用户访问兴趣度,并基于改进的K均值聚类算法将用户访问兴趣度数据集划分为多个具有相近兴趣度的用户集合,最终为用户提供功能个性化推荐服务.实验结果证明该方法在实现电力业务系统信息推荐方面具有较好的效果.  相似文献   

2.
在电子商务发展中,商家需要理解用户访问网站的行为,为用户提供个性化服务,从而吸引用户购买商品。挖掘用户访问网站的行为是商家一个急需解决的问题,通过对Web日志进行挖掘是解决该问题的重要研究方法。提出了网页兴趣信息素的新概念,它是由页面相对浏览时间和点击率构建而成,利用兴趣信息素设计了基于蚁群算法的群体用户访问路径挖掘算法,根据挖掘结果预测用户访问行为。实验结果表明,兴趣信息索可以有效地预测用户的兴趣变化,能准确地反映用户访问模式,提高了预测群体用户访问行为的准确率。  相似文献   

3.
基于日志的Web使用挖掘,利用用户访问页面的相关性提出用户兴趣度,并应用于远程教育中数据准备和页面的推荐过程.讨论教学过程中按需学习和因才施教的可行性,介绍聚类算法在预测推荐页面中的设计与应用.实验运行结果表明,该算法是可行和有效的.  相似文献   

4.
从Web日志中挖掘用户浏览兴趣路径,对于网站重构和产品推荐等商业用途具有重要意义。传统的挖掘算法一般基于用户访问频度,并不能真正体现用户的兴趣点。访问时间是一个能反应用户浏览兴趣的重要因素,用预设的访问时间阈值剔除无效数据,得出有效访问时间。本文对蚁群算法加以改进,用浏览频度和权值因子作为兴趣函数,有效访问时间因子作为信息素函数,提出有效-兴趣度的概念。对算法进行具体模拟,结果表明,本文提出的挖掘算法比传统的算法更能体现用户的浏览兴趣。  相似文献   

5.
Web日志挖掘预处理中的Frame页面过滤算法   总被引:12,自引:0,他引:12  
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式,在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法-Frame页面过滤算法消除其影响。通过实验数据对该算法进行验证,说明Frame页面过滤算法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

6.
研究基于访问日志挖掘的高校综合信息门户页面推荐。从高校综合信息门户服务器日志中获取用户日志数据,对日志数据中的“脏”数据进行预处理,通过改进的K-means聚类算法将用户浏览兴趣度数据集划分为多个具有相近兴趣度的用户集合,凭此为用户提供个性化的页面推荐。实验结果表明,在高校综合信息门户页面推荐方面具有不错的效果。  相似文献   

7.
Web日志数据中保存有大量用户访问信息,而Web日志挖掘就是对系统日志信息以及用户的注册数据等进行挖掘,以发现有用的模式和知识。首先介绍了Web日志挖掘的基本流程,然后介绍了电子商务中的日志挖掘,并着重分析了在模式识别中如何利用改进的关联规则算法来挖掘出用户频繁访问的路径和页面兴趣度,为个性化推荐系统模型提供了依据,从而证实了对Web日志数据进行挖掘具有很重要的现实意义。  相似文献   

8.
方彬  胡侠  王灿 《计算机工程》2011,37(15):271-273
为帮助盲人更有效便捷地通过网络获取所需书籍资源,提出一种基于用户行为的图书推荐方法。该方法在考虑用户兴趣随时间变化的基础上,通过分析用户日志,建模表达访问书籍、访问书籍类别、使用书签3类用户行为,实现盲人用户的图书推荐,同时缓解盲人数字图书馆中的用户数据稀疏问题。实验结果证明,该方法推荐效果良好。  相似文献   

9.
基于兴趣度的Web用户访问模式分析   总被引:1,自引:0,他引:1  
吕佳 《计算机工程与设计》2007,28(10):2403-2404,2407
Web日志隐含了用户访问Web行为的动因和规律,如何有效地从中挖掘出用户访问模式是Web日志挖掘的重要研究内容.构造了User_ID-URL矩阵,矩阵元素为用户访问页面的兴趣度.应用经典的模糊C-均值聚类算法进行用户访问模式分析,通过在真实数据集上的实验,结果表明引入了用户兴趣度的日志挖掘算法是行之有效的.  相似文献   

10.
个性化信息服务的基础是用户兴趣的挖掘。文章提出一种基于用户行为和日志数据的用户兴趣挖掘方法,并应用模糊技术进行处理,实验表明具有较好的挖掘效果。  相似文献   

11.
Advanced data preprocessing for intersites Web usage mining   总被引:2,自引:0,他引:2  
Web usage mining applies data mining procedures to analyze user access of Web sites. As with any KDD (knowledge discovery and data mining) process, WUM contains three main steps: preprocessing, knowledge extraction, and results analysis. We focus on data preprocessing, a fastidious, complex process. Analysts aim to determine the exact list of users who accessed the Web site and to reconstitute user sessions-the sequence of actions each user performed on the Web site. Intersites WUM deals with Web server logs from several Web sites, generally belonging to the same organization. Thus, analysts must reassemble the users' path through all the different Web servers that they visited. Our solution is to join all the log files and reconstitute the visit. Classical data preprocessing involves three steps: data fusion, data cleaning, and data structuration. Our solution for WUM adds what we call advanced data preprocessing. This consists of a data summarization step, which will allow the analyst to select only the information of interest. We've successfully tested our solution in an experiment with log files from INRIA Web sites.  相似文献   

12.
为了降低Web日志数据的规模,并能从预处理后的数据中发现更有价值的访问模式,在引入知识的信息量的基础上,给出了单个属性相对于属性集的重要性量化值的概念,并采用了操作系统中LRU页面置换算法的思想,提出了基于属性重要性的WUM数据预处理方式。实验证明:该方式可以删除不具有挖掘价值的、因用户短期行为而访问的Web日志记录,剔除掉噪音数据,从而有效减小了日志挖掘的复杂度。  相似文献   

13.
操作系统通常仅提供超级用户进程直接访问raw磁盘的方法。为使非超级用户进程也能够利用SAN文件系统访问raw磁盘,SAN文件系统必须对非超级用户进程进行授权。该文提出了一种基于访问权力传递的raw磁盘访问授权方法,实现了非超级用户进程对SAN文件系统的透明访问,并结合一个实际的SAN文件系统,给出了该方法的具体实现例子。  相似文献   

14.
虽然现有的安全操作系统能够防止非授权用户的访问,但是它们不能阻止授权用户的恶意攻击行为。在信息战环境下,恶意授权用户(malicious authorized user)发起的数据篡改攻击是一种新的严重安全威胁。它通过被恶意修改的数据误导被攻击的组织做出错误的决策。针对恶意系统授权用户造成的文件数据篡改破坏问题,本文提出了一种基于数据依赖的文件数据可靠恢复算法。在发现系统授权用户的恶意攻击行为后,它能够通过对恶意用户所攻击的文件数据和非恶意用户所访问文件数据间存在的数据依赖关系的分析,自动发现被破坏的数据并对其进行自动修复。它的优点在于对受破坏的文件数据恢复时,能够保留未受恶意攻击影响的工作,从而提高系统的可用性,增强抗恶意攻击的能力。  相似文献   

15.
基于网络性能的智能Web加速技术——缓存与预取   总被引:8,自引:0,他引:8  
Web业务在网络业务中占有很大比重,在无法扩大网络带宽时,需要采取一定技术合理利用带宽,改善网络性能。研究了基于RTT(round trip time)等网络性能指标的Web智能加速技术,在对Web代理服务器上的业务进行分析和对网络RTT进行测量分析的基础上,提出了智能预取控制技术及新的缓存(cache)替换方法。对新算法的仿真研究表明,该方法提高了缓存的命中率。研究表明预取技术在不明显增加网络负荷的前提下,提高了业务的响应速度,有效地改进了Web访问性能。  相似文献   

16.
在对Web应用挖掘的基本步骤作系统性研究的基础上,设计了一个基于Web日志文件的关联规则挖掘模块。该系统应能够对用户访问Web时服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣。为了识别用户浏览模式,实现了利用关联规则挖掘算法Apriori对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行挖掘的模块,该模块针对用户选定的若干页面产生满足最小支持度和最小置信度的页面之间的强关联规则,并以文本的形式显示挖掘的结果。  相似文献   

17.
基于小波技术的网络时序数据挖掘   总被引:1,自引:0,他引:1       下载免费PDF全文
网络安全日志数据库是一种历史数据,对它的分析具有十分重要的实际价值,作为一种时序数据库,针对它的信息挖掘已研究出许多方法。该文提出了一种新的对此类时序数据库的信息挖掘方法,利用小波变换多分辨率分析的方法对信号化后网络安全日志数据库中的数据在不同的时间尺度上进行分析和信息挖掘,从中提取出单位时间内网络受到攻击次数的时间周期规律,并对这种方法的分析特性进行了阐述,而且利用小波阈值重建的方法对原始信号数据进行去噪处理,收到了良好的效果。  相似文献   

18.
搜索引擎用户访问量模型   总被引:4,自引:0,他引:4  
基于大规模分布式WWW搜索引擎系统---北大“天网”的用户日志,该文研究了搜索引擎用户访问量建模分析和预测的一般方法;将用户的访问量看成按时间次序排列的随机变量序列,利用时间序列分析的方法,分别建立了天网用户的查询量、点击量和不同IP用户访问量的潜周期模型;结果显示模型对实际数据拟合效果较好;用户访问的主周期为24小时,其它周期依次为12小时、6小时、8小时、5小时、168小时(即一周);用户的异常访问情况可通过小波技术检测。  相似文献   

19.
The Internet has solved the age-old problem of network connectivity and thus enabling the potential access to, and data sharing among large numbers of databases. However, enabling users to discover useful information requires an adequate metadata infrastructure that must scale with the diversity and dynamism of both users' interests and Internet accessible databases. In this paper, we present a model that partitions the information space into a distributed, highly specialized domain ontologies. We also introduce inter-ontology relationships to cater for user-based interests across ontologies defined over Internet databases. We also describe an architecture that implements these two fundamental constructs over Internet databases. The aim of the proposed model and architecture is to eventually facilitate data discovery and sharing for Internet databases.  相似文献   

20.
In recent years, grid technology has had such a fast growth that it has been used in many scientific experiments and research centers. A large number of storage elements and computational resources are combined to generate a grid which gives us shared access to extra computing power. In particular, data grid deals with data intensive applications and provides intensive resources across widely distributed communities. Data replication is an efficient way for distributing replicas among the data grids, making it possible to access similar data in different locations of the data grid. Replication reduces data access time and improves the performance of the system. In this paper, we propose a new dynamic data replication algorithm named PDDRA that optimizes the traditional algorithms. Our proposed algorithm is based on an assumption: members in a VO (Virtual Organization) have similar interests in files. Based on this assumption and also file access history, PDDRA predicts future needs of grid sites and pre-fetches a sequence of files to the requester grid site, so the next time that this site needs a file, it will be locally available. This will considerably reduce access latency, response time and bandwidth consumption. PDDRA consists of three phases: storing file access patterns, requesting a file and performing replication and pre-fetching and replacement. The algorithm was tested using a grid simulator, OptorSim developed by European Data Grid projects. The simulation results show that our proposed algorithm has better performance in comparison with other algorithms in terms of job execution time, effective network usage, total number of replications, hit ratio and percentage of storage filled.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号