首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
在对用户兴趣模型探讨的基础上,提出了一种基于概念的用户兴趣模型,用于区别用户兴趣的大小.讨论了基于链接的查询聚类算法,并针对该算法的不足提出了一种基于概念的聚类算法,该算法根据用户兴趣模型建立查询-概念二分图,然后计算图中查询顶点间的概念相似度,并将概念相似度最高的查询顶点进行合并以实现聚类.设计实现了一个基于Web数据挖掘的个性化搜索引擎系统,对系统的个性化查询进行了测试,并对比分析了链接聚类和概念聚类的实验结果.  相似文献   

2.
目前搜索引擎返回的信息太多且难以根据用户的兴趣提供检索结果,而个性化推荐是一种旨在减轻用户在信息检索方面负担的有效方法.文中把内容过滤技术和文档聚类技术相结合,以改进的STC聚类方法组织搜索结果,主动推荐用户感兴趣的文档并将其中的Top-N对象预取到本地. WWW缓存中的Web文档代表了用户当前的兴趣,通过建立用户概率兴趣模型,在搜索结果STC聚类的基础上进行内容过滤.实验表明,基于搜索结果的Web预取模型具有较好的时间性能和较高的查准率.  相似文献   

3.
卫琳 《微机发展》2007,17(9):65-67
搜索引擎返回的信息太多且不能根据用户的兴趣提供检索结果,使得用户使用搜索引擎难以用简便的方式找到感兴趣的文档。个性化推荐是一种旨在减轻用户在信息检索方面负担的有效方法。文中把内容过滤技术和文档聚类技术相结合,实现了一个基于搜索结果的个性化推荐系统,以聚类的方法自动组织搜索结果,主动推荐用户感兴趣的文档。通过建立用户概率兴趣模型,对搜索结果STC聚类的基础上进行内容过滤。实验表明,概率模型比矢量空间模型更好地表达了用户的兴趣和变化。  相似文献   

4.
基于搜索结果的个性化推荐系统研究   总被引:1,自引:0,他引:1  
搜索引擎返回的信息太多且不能根据用户的兴趣提供检索结果,使得用户使用搜索引擎难以用简便的方式找到感兴趣的文档。个性化推荐是一种旨在减轻用户在信息检索方面负担的有效方法。文中把内容过滤技术和文档聚类技术相结合,实现了一个基于搜索结果的个性化推荐系统,以聚类的方法自动组织搜索结果,主动推荐用户感兴趣的文档。通过建立用户概率兴趣模型,对搜索结果跚℃聚类的基础上进行内容过滤。实验表明,概率模型比矢量空间模型更好地表达了用户的兴趣和变化。  相似文献   

5.
研究目的是挖掘搜索引擎中用户兴趣偏好,实现个性化搜索引擎技术.研究方法采用识别用户输入查询串,通过查询进行挖掘用户兴趣类别,但有时用户输入查询串短,或者出现查询词歧义等.由于查询会返回一系列文档,将相关文档分类处理,能够更清晰识别用户兴趣偏好.结果显示通过文档关系矩阵,将用户查询映射到对应类别,发现用户兴趣爱好.对于兼类查询等问题可以通过扩展查询解决.结论是该模型通过查询串和相关文档之间关系,进而实现用户偏好的辨别.该技术为搜索引擎信息推荐等技术打下良好基础.  相似文献   

6.
基于关联规则的Web文档聚类算法   总被引:32,自引:1,他引:32  
宋擒豹  沈钧毅 《软件学报》2002,13(3):417-423
Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;然后依据类间距离和类内连接强度阈值合并、拆分类,最终实现文档聚类.实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值.  相似文献   

7.
目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用WordNet结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。  相似文献   

8.
针对目前的领域概念查询聚类方法中未见考虑用户偏好,提出一种支持用户偏好查询的领域概念图模型。该图模型主要包括两部分:基于概念本身考虑,利用综合语义相似度计算方法构建概念的语义关系图;基于用户查询偏好考虑,采用改进的互信息计算用户生成数据间隐含的查询偏好,将其结果用于补全领域概念的语义关系图。这一处理过程使得原有领域概念的语义关系图得到了有益的补充,满足了用户的偏好查询。经实验验证,该算法较现有方法,查准率、查全率以及F-measure值均有所提高且响应时间得到了降低。  相似文献   

9.
将查询结果根据其内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词汇图的搜索结果聚类算法,以词作为聚类的核心依据,定义了以词为顶点、文档为词的属性、词间相关度为边的词汇图,并以词汇图为依据进行文档类别划分.充分利用了词间的关联信息,增强了同义词的扩展能力,划分后即可确定类别名.实验结果表明,进行搜索结果聚类时与传统算法相比质量上有所提高.  相似文献   

10.
一种基于统计语义聚类的查询语言模型估计   总被引:2,自引:0,他引:2  
如何有效生成文档聚类并使用聚类信息提高检索效果是信息检索中的重要研究课题.如果假设文档中存在若干隐含的独立主题,那么文档可以看成是由这些隐含的独立主题混合噪声相互作用的结果.基于这个假设提出了一种基于独立分量分析的语义聚类技术,试图借助于独立分量分析的良好主题区分能力,将一组文档按照实际隐含的主题在语义空间上聚类.在语言模型的框架下,语义主题聚类将由用户初始查询按照一定的度量方式激活.利用激活语义聚类的信息估计一个反馈语义主题模型,并与初始查询模型一起形成新的查询模型.在5个TREC数据集上的实验结果表明:基于统计语义聚类估计的查询模型相比传统的查询模型以及其他基于聚类的语言模型在检索性能上有显著性提高.其主要原因是应用了和用户查询最相似的语义聚类信息来估计查询模型.  相似文献   

11.
针对小文本的Web数据挖掘技术及其应用   总被引:4,自引:2,他引:4  
现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。  相似文献   

12.
张伟 《计算机科学》2003,30(11):56-57
Today, search engine is the most commonly used tool for Web information retrieval, data mining may discover knowledge in large data. With the era of information and digital of media, Web data mining is becoming one of the hottest topics. By combining information retrieval technology with data mining technology, a prototype system of search engine is designed and implemented in this paper. It can group Web search results in a semantic, online and tree way, in order to help users find relevant Web information easier and faster.  相似文献   

13.
基于web挖掘的用户服务研究   总被引:3,自引:0,他引:3  
数据丰富而知识贫乏导致了知识发现和数据挖掘领域的出现。基于Web的数据挖掘,是从Web海量的数据中自动、智能地抽取隐藏于这些数据中的知识,分析了Web挖掘技术的概念、特点、技术等。根据Web数据挖掘最流行的分类,可以分为Web内容挖掘、Web结构挖掘和Web使用记录挖掘。其中Web使用挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。该文根据Web数据挖掘的最近研究状况,主要论述了一个更新的频繁路径集的挖掘浏览模式在Web用户个性化服务中的应用,同时,还对发现的知识讨论了其在在线服务中的应用并给出了相应算法。  相似文献   

14.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究,包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在Web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

15.
在Web数据挖掘研究领域中,Web日志挖掘是Web数据研究领域中一个最重要的应用方面。本文对Web日志挖掘作了系统的研究。包括对服务器上日志结构的分析和对数据预处理过程的描述。文中着重讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在web用户聚类应用中的可行性。在此基础上还提出了一个Web站点的个性化服务模型,通过对Web服务器中日志的挖掘,发现具有相似访问兴趣的用户群,进而为用户作个性化的推荐。  相似文献   

16.
In the era of the Web, there is urgent need for developing systems able to personalize the online experience of Web users on the basis of their needs. Web recommendation is a promising technology that attempts to predict the interests of Web users, by providing them with information and/or services that they need without explicitly asking for them. In this paper we propose NEWER, a usage-based Web recommendation system that exploits the potential of Computational Intelligence techniques to dynamically suggest interesting pages to users according to their preferences. NEWER employs a neuro-fuzzy approach in order to determine categories of users sharing similar interests and to discover a recommendation model as a set of fuzzy rules expressing the associations between user categories and relevances of pages. The discovered model is used by a online recommendation module to determine the list of links judged relevant for users. The results obtained on both synthetic and real-world data show that NEWER is effective for recommendation, leading to a quality of the generated recommendations comparable and often significantly better than those of other approaches employed for the comparison.  相似文献   

17.
随着互联网技术的发展, 个性化标签推荐系统在海量信息或资源过滤中起着重要的角色. 在新浪微博平台中, 用户可以自主的给自己添加标签来表明自己的兴趣爱好. 同时, 用户也可以通过标签来搜索与自己兴趣爱好相似的用户. 针对新浪微博中大部分用户没有添加标签或添加标签数目较少的问题, 提出了一种基于RBLDA模型和交互关系的微博标签推荐算法, 它首先利用RBLDA模型来产生用户的初始标签列表, 然后再结合用户的交互关系而形成的交互图来预测用户标签的算法. 通过在新浪微博真实数据集上的实验发现, 该方案与传统的标签推荐算法相比, 取得了良好的实验效果.  相似文献   

18.
从Web日志中挖掘用户浏览兴趣路径,对于网站重构和产品推荐等商业用途具有重要意义。传统的挖掘算法一般基于用户访问频度,并不能真正体现用户的兴趣点。访问时间是一个能反应用户浏览兴趣的重要因素,用预设的访问时间阈值剔除无效数据,得出有效访问时间。本文对蚁群算法加以改进,用浏览频度和权值因子作为兴趣函数,有效访问时间因子作为信息素函数,提出有效-兴趣度的概念。对算法进行具体模拟,结果表明,本文提出的挖掘算法比传统的算法更能体现用户的浏览兴趣。  相似文献   

19.
One of the major innovations in personalization in the last 20?years was the injection of social knowledge into the model of the user. The user is not considered an isolated individual any more, but a member of one or more communities. User communities have been facilitated by the striking advancements of electronic communications and in particular the penetration of the Web into people??s everyday routine. Communities arise in a number of different ways. Social networking tools typically allow users to proactively connect to each other. Alternatively, data mining tools discover communities of connected Web sites or communities of Web users. In this article, we focus on the latter type of community, which is commonly mined from logs of users?? activity on the Web. We recall how this process has been used to model the users?? interests and personalize Web applications. Collaborative filtering and recommendation are the most widely used forms of community-driven personalization. However, we examine a range of other interesting alternatives that are worth investigating further. This effort leads us naturally to the recent developments on the Web and particularly the advent of the social Web. We explain how this development draws together the different viewpoints on Web communities and introduces new opportunities for community-based personalization. In particular, we propose the concept of active user community and show how this relates to recent efforts on mining social networks and social media.  相似文献   

20.
Web数据挖掘在智能选课系统中的应用研究   总被引:1,自引:0,他引:1  
Web数据挖掘技术是一种热门的信息技术,是数据挖掘技术在Web环境下的应用。文章首先阐述了Web数据挖掘技术的基本原理,接着构建了基于Web数据挖掘的学校智能选课系统模型,根据学生的不同的兴趣和特点,提供不同的课程选择,更有利于实现对学生的培养。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号