首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
为能更好地解释搜索引擎和商务搜索的点击日志中的用户行为,实现一种用于分析日志中包含的用户行为的贝叶斯点击模型。通过分析中国最大电子商务网站的约927万条用户搜索点击日志数据,发现一个的文档的点击是受其上下位置点击过的文档共同影响的,然后基于此发现提出并实现一种新的基于贝叶斯推理的点击模型,并给出并行版本的算法实现。最后通过利用来自用户搜索的一个月日志数据验证,结果表明该模型优于现有的点击模型。  相似文献   

2.
搜索引擎用户行为分析是网络信息检索技术的研究热点.通过分析用户点击行为,利用Web数据挖掘技术获取有用信息,提高搜索引擎的检索算法和检索服务的效率,把用户从大量无序的搜索结果中解放出来.本文针对传统并行计算模型在易扩展和易编程方面遇到的瓶颈,给出一种基于Ha-doop的海量日志数据处理模型,通过基于Hadoop的分布式...  相似文献   

3.
分析传统关联关系挖掘的主要缺陷,提出关联模型的概念以及关联模式挖掘算法,指出通过多种模式的挖掘,找到课程之间隐含的关联关系,并通过真实的教学数据验证该算法,通过分析实验结果,得出该算法能够有效准确地挖掘出两门课程之间关联关系的结论。  相似文献   

4.
点击流数据是分析互联网用户心理倾向的关键,用户感兴趣的页组关联就隐藏于WEB日志之中。网站页面间的隐式关联可以通过分析点击流数据实现。给出了一种挖掘关联页面的方法。关联页面发现算法采用了一种类似于Apriori的模型。算法克服了前人关联页面算法的一些缺点,能够更好地适应复杂的互联网环境。  相似文献   

5.
个性化信息检索通过挖掘用户兴趣来准确理解用户信息需求,提供高质量的检索结果。然而,用户历史是否与用户信息需求有关系这一问题缺少明确回答。本文基于真实搜索日志对用户历史与用户信息需求的关系进行了分析。当前点击代表了用户信息需求。分析结果显示,用户历史中存在与用户信息需求有关的内容,证明挖掘用户历史可以提高个性化检索性能。  相似文献   

6.
关联规则在网站结构优化中的改进,使用Apriori算法,通过日志挖掘发现网页间的关联关系,使网站更趋合理,便于用户访问.针对网站超链接结构的一条超链接只能建立在两个网页上的特点,该算法使用逐层搜索的迭代方法,即只需发现频繁集并找出所2-项集,即可降低Apriori的时间复杂度.  相似文献   

7.
基于兴趣度的Web用户访问模式分析   总被引:1,自引:0,他引:1  
吕佳 《计算机工程与设计》2007,28(10):2403-2404,2407
Web日志隐含了用户访问Web行为的动因和规律,如何有效地从中挖掘出用户访问模式是Web日志挖掘的重要研究内容.构造了User_ID-URL矩阵,矩阵元素为用户访问页面的兴趣度.应用经典的模糊C-均值聚类算法进行用户访问模式分析,通过在真实数据集上的实验,结果表明引入了用户兴趣度的日志挖掘算法是行之有效的.  相似文献   

8.
为了克服传统检索算法在个性化检索上的不足,提出了基于蚁群算法的资源检索模块.该模块挖掘Web日志中的用户向量,根据向量的相关度寻找当前用户的邻近用户.模拟蚁群算法建立概率模型,并按照概率值对资源进行降序排列,将结果提供给用户作为决策支持.实验表明新的检索模块优化了资源检索过程,提高了检索效率,实现了个性化网络教学资源检索.最后分析了模块的优越性和局限性,并对以后的发展方向进行了展望.  相似文献   

9.
提出了利用大量用户评价结果来进行特征权重的计算方法,用于解决搜索引擎中查询串与搜索结果的相似度分析。该方法完全利用用户对搜索结果的“潜在评价”来进行。用户对输入查询串所做的点击反映了其内部的关联性,该文提出的方法可获取这种关联性,对该问题建立了数学模型,利用EM算法解决了特征权重的计算。由于模型的函数比较复杂,难于计算其收敛性,因此,使用了模拟退火算法作为EM算法的补充,用于验证算法的收敛性。实验使用百度搜索引擎在竞价广告上进行,提取的测试数据样本为100个广告和144 132个query,获得的数据结果显示,所有特征收敛到全局最优解,抽样部分数据获得检索相似准确率为93.32%,召回率为87.43%。  相似文献   

10.
基于闭合有间隔频繁子序列的点击流聚类   总被引:2,自引:0,他引:2       下载免费PDF全文
马超  沈微 《计算机工程》2010,36(23):72-75
对网站日志文件中记录的点击流序列聚类可以发现用户使用模式,从而对用户归类。而传统聚类方法面临着难以提取点击流中有代表性的特征向量以及点击流及其特征向量存在数据稀疏性的问题。针对上述情况,提出一种基于闭合有间隔频繁子序列模式挖掘的点击流聚类方法。该方法从点击流中提取子序列模式的频繁支持度,构建特征向量,利用基于双向映射欧氏距离的模糊距离度量判断向量间相似度,增强BIRCH聚类算法对点击流数据的聚类效果。  相似文献   

11.
信息检索的效果很大程度上取决于用户能否输入恰当的查询来描述自身信息需求。很多查询通常简短而模糊,甚至包含噪音。查询推荐技术可以帮助用户提炼查询、准确描述信息需求。为了获得高质量的查询推荐,在大规模“查询-链接”二部图上采用随机漫步方法产生候选集合。利用摘要点击信息对候选列表进行重排序,使得体现用户意图的查询排在比较高的位置。最终采用基于学习的算法对推荐查询中可能存在的噪声进行过滤。基于真实用户行为数据的实验表明该方法取得了较好的效果。  相似文献   

12.
In order to understand user intents behind their queries, many researchers study similar query finding. Recently, the click graph has shown its utility in describing the relationship between queries and URLs. The previous approaches mainly either generate related terms or find relevant queries based on the co-clicked URLs. However, these approaches may suffer from the complexity of natural language processing and click-through data sparseness. In this paper, we tackle this problem through three query probability distribution representation models: Click Model, Term Model, and Semantic Model. The Click Model extracts credible transition probability from queries to URLs, and describes a query without considering web contents. The Term Model focuses on representing a query via term distribution over its main entities and purposes, which can better capture information needs behind short and ambiguous keyword queries. The Semantic Model learns potential intent distribution of queries to distinguish user intents behind a query. Among the three models, we apply pairwise similarity metrics and graph-based personalized pagerank to find similar queries. Compared to traditional representation models, our representation models are verified to be effective and efficient, especially for long tail queries.  相似文献   

13.
Search engine users often encounter the difficulty of phrasing the precise query that could lead to satisfactory search results. Query recommendation is considered an effective assistant in enhancing keyword-based queries in search engines and Web search software. In this paper, we present a Query-URL Bipartite based query reCommendation approach, called QUBiC. It utilizes the connectivity of a query-URL bipartite graph to recommend related queries and can significantly improve the accuracy and effectiveness of personalized query recommendation systems comparing with the conventional pairwise similarity based approach. The main contribution of the QUBiC approach is its three-phase framework for personalized query recommendations. The first phase is the preparation of queries and their search results returned by a search engine, which generates a historical query-URL bipartite collection. The second phase is the discovery of similar queries by extracting a query affinity graph from the bipartite graph, instead of operating on the original bipartite graph directly using biclique-based approach or graph clustering. The query affinity graph consists of only queries as its vertices and its edges are weighted according to a query-URL vector based similarity (dissimilarity) measure. The third phase is the ranking of similar queries. We devise a novel rank mechanism for ordering the related queries based on the merging distances of a hierarchical agglomerative clustering (HAC). By utilizing the query affinity graph and the HAC-based ranking, we are able to capture the propagation of similarity from query to query by inducing an implicit topical relatedness between queries. Furthermore, the flexibility of the HAC strategy makes it possible for users to interactively participate in the query recommendation process, and helps to bridge the gap between the determinacy of actual similarity values and the indeterminacy of users’ information needs, allowing the lists of related queries to be changed from user to user and query to query, thus adaptively recommending related queries on demand. Our experimental evaluation results show that the QUBiC approach is highly efficient and more effective compared to the conventional query recommendation systems, yielding about 13.3 % as the most improvement in terms of precision.  相似文献   

14.
盛俊  李斌  陈崚 《计算机应用》2020,40(9):2606-2612
针对基于网络信息的商品推荐的问题,提出了在二部网络上基于社区挖掘和标签传递的推荐算法。首先,用带权的二部图来表达用户-项目的评分矩阵,利用标签传递技术对二部网络进行社区挖掘;然后,基于二部网络中的社区结构信息,充分利用用户所在的社区之间的相似性以及项目之间、用户之间的相似性来挖掘用户可能感兴趣的项目;最后,向用户进行项目的推荐。在实际网络上的实验结果表明,与基于双向关联规则项目评分预测的推荐算法(BAR-CF)、基于项目评分预测的推荐算法(IR-CF)、基于网络链接预测的用户偏好预测方法(PLP)和改进的基于用户的协同过滤的方法(MU-CF)相比,该算法的平均绝对差(MAE)低0.1~0.3,准确率高0.2。因此,所提算法可以取得比其他类似方法更高质量的推荐结果。  相似文献   

15.
盛俊  李斌  陈崚 《计算机应用》2005,40(9):2606-2612
针对基于网络信息的商品推荐的问题,提出了在二部网络上基于社区挖掘和标签传递的推荐算法。首先,用带权的二部图来表达用户-项目的评分矩阵,利用标签传递技术对二部网络进行社区挖掘;然后,基于二部网络中的社区结构信息,充分利用用户所在的社区之间的相似性以及项目之间、用户之间的相似性来挖掘用户可能感兴趣的项目;最后,向用户进行项目的推荐。在实际网络上的实验结果表明,与基于双向关联规则项目评分预测的推荐算法(BAR-CF)、基于项目评分预测的推荐算法(IR-CF)、基于网络链接预测的用户偏好预测方法(PLP)和改进的基于用户的协同过滤的方法(MU-CF)相比,该算法的平均绝对差(MAE)低0.1~0.3,准确率高0.2。因此,所提算法可以取得比其他类似方法更高质量的推荐结果。  相似文献   

16.
随着异构网络的信息量与日俱增,如何准确地帮助用户获取所需要的信息已成为一个热门问题。相似性搜索在网络搜索中得到了广泛的应用。基于元路径的相似性搜索能更好地表达异构网络所包含的语义。但是现有的大多数该类方法存在路径选择数多导致计算量大的问题。根据用户导向去预测元路径以缓解上述问题成为一个重要的研究方向。这类方法需要用户在搜索的同时提供结果样例作为导向,据此预测与用户搜索相关的元路径。目前,相关研究主要是针对异构网络中的同类型结点。利用图的结构信息建立语义预测算法,计算各候选路径与用户搜索的匹配概率,然后选择概率最大的路径。实验表明,提出的算法能够实现对同类型和不同类型结点间语义的预测,具有较好的性能和有效性。并为如何在多语义环境下获得相似性结果提供了具体的实现方法。  相似文献   

17.
在对用户兴趣模型探讨的基础上,提出了一种基于概念的用户兴趣模型,用于区别用户兴趣的大小.讨论了基于链接的查询聚类算法,并针对该算法的不足提出了一种基于概念的聚类算法,该算法根据用户兴趣模型建立查询-概念二分图,然后计算图中查询顶点间的概念相似度,并将概念相似度最高的查询顶点进行合并以实现聚类.设计实现了一个基于Web数据挖掘的个性化搜索引擎系统,对系统的个性化查询进行了测试,并对比分析了链接聚类和概念聚类的实验结果.  相似文献   

18.
19.
Seed URLs selection for focused Web crawler intends to guide related and valuable information that meets a user's personal information requirement and provide more effective information retrieval. In this paper, we propose a seed URLs selection approach based on user-interest ontology. In order to enrich semantic query, we first intend to apply Formal Concept Analysis to construct user-interest concept lattice with user log profile. By using concept lattice merger, we construct the user-interest ontology which can describe the implicit concepts and relationships between them more appropriately for semantic representation and query match. On the other hand, we make full use of the user-interest ontology for extracting the user interest topic area and expanding user queries to receive the most related pages as seed URLs, which is an entrance of the focused crawler. In particular, we focus on how to refine the user topic area using the bipartite directed graph. The experiment proves that the user-interest ontology can be achieved effectively by merging concept lattices and that our proposed approach can select high quality seed URLs collection and improve the average precision of focused Web crawler.  相似文献   

20.
网络搜索分析在优化搜索引擎方面具有举足轻重的作用,而且对用户个人搜索特性进行分析能够提高搜索引擎的精准度。目前,大多数已有模型(比如点击图模型及其变体),注重研究用户群体的共同特点。然而,关于如何做到既可以获取用户群体共同特点又可以获取用户个人特点方面的研究却非常少。本文研究了基于个人用户网络搜索分析新问题,即通过研究用户搜索的突发性现象,获取个人用户搜索查询的主题分布情况。提出了两个搜索主题模型,即搜索突发性模型(SBM)和耦合敏感搜索突发性模型(CS-SBM)。SBM假设查询词和URL主题是无关的,CS-SBM假设查询词和URL之间是有主题关联的,得到的主题分布信息存储在偏Dirichlet先验中,采用Beta分布刻画用户搜索的时间特性。实验结果表明,每一个用户的网络搜索轨迹都有多种基于用户的独有特点。同时,在使用大量真实用户查询日志数据情况下,与LDA、DCMLDA、TOT相比,本文提出的模型具有明显的泛化性能优势,并且有效地描绘了用户搜索查询主题在时间上的变化过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号