首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
利用社会化标注对网页检索进行改进,提出一种加权的社会化SimRank算法。从社会化标注系统中提取网页以及标签词之间的相似度信息。分别用这2类相似度信息来计算网页本身的质量同网页与查询之间的相关性。依据网页的质量和相关性信息对网页进行重排序。在del.icio.us网站抽取真实标注数据集进行实验,结果表明,该方法挖掘到的信息能够较好地改善网页检索效果。  相似文献   

2.
通用搜索引擎在检索过程中会出现查询结果与关键词所属领域无关的主题漂移现象.本文提出了面向特定领域的网页重排序算法-TSRR(Topic Sensitive Re-Ranking)算法,从一个新的视角对主题漂移问题加以解决. TSRR算法设计一种独立于网页排序的模型,用来表示领域,然后建立网页信息模型,在用户检索过程中结合领域向量模型和网页信息模型对网页搜索结果进行重排序.在爬取的特定领域的数据集上,以用户满意度和准确率为标准进行评估,实验结果表明,本文中提出的TSRR算法性能优异,比经典的基于Lucene的排序算法在用户满意度上平均提高17.3%,在准确率上平均提高41.9%.  相似文献   

3.
为了提高网页排序的准确性,提出一种基于ε-贪婪学习和用户点击行为的网页排序算法。首先,根据用户查询,通过轮盘赌策略向用户推荐相关网页列表;然后,根据用户点击网页的行为进行ε-贪婪学习,计算得到排序系统中的强化信号,通过奖励和惩罚机制为每个网页计算相关性程度值;最后,根据相关性程度对网页进行重新排序。随着用户反馈的信息越来越多,相关网页会排列在列表的最高等级上。实验结果表明,提出的算法能够准确地推荐出相关网页,在P@n、NDCG和MAP性能指标上都获得了较优的性能。  相似文献   

4.
基于网站影响力的网页排序算法   总被引:1,自引:0,他引:1  
张芳  郭常盈 《计算机应用》2012,32(6):1666-1669
传统的排序算法主要是根据网页之间的链接关系进行排序,没有考虑到网站与网页之间互相增强的关系和用户对网页的重要性的评价。为此提出了一种基于更新时间、网页权威性和用户对网页的反映的相关排序算法。该算法以网站为节点计算每个网站权威值,在为网页分配权威值时考虑了网页在网站内的位置和用户对其的反映,并通过网站与网页之间相互影响的关系来相互反馈。实验结果表明,与传统的PageRank、HITS等排序算法相比,该算法在检索性能上有明显提高。  相似文献   

5.
针对传统方法不能很好地处理网页中简短域和用户查询之间的相关性排序问题,提出一种改进的编辑距离(MED)排序算法,在编码和计算过程中引入查询词分布的位置、顺序和距离等信息,将查询和简短域之间的相关性问题转化为编码字符串的相似性问题。仿真实验结果表明,与传统的相关性排序算法相比,该算法可以提高网页搜索中简短网页域的相关性排序性能。  相似文献   

6.
基于社会性标注的本体学习方法   总被引:2,自引:0,他引:2  
由相互协作的用户在社会性标注系统中产生的大量的标注数据可以作为各种语义网应用的数据源.文中提出一种基于社会性标注的本体学习方法来挖掘蕴涵在社会性标注中的语义信息,提出一种隐含包容层次结构来刻画标签空间中潜在的结构,并基于此模型推导出本体学习算法.首先利用集合论的方法确定标签之间的包容关系,并将其表示为标签包容关系图.在将此图转化为层次关系时,为解决包容关系的不一致性,提出一种基于随机游走的标签普遍性排序方法.最后提出一种自顶向下的凝聚式层次聚类算法来生成概念层次结构.在实际社会性标注系统中采集的数据集上进行的实验表明,与目前的代表性方法相比,文中提出的方法在性能上有明显的提高.  相似文献   

7.
搜索引擎中用户查询和网页资源之间的相似度研究一直是页面排序的研究核心。利用 HowNet 对词语的语义层次架构模型,对用户的检索词进行兴趣挖掘,同时对检索词和挖掘出的兴趣关键词的语义相似度计算方法进行改进,用户的检索请求与分块后的网页资源进行相似度迭代计算。实验结果表明,改进的算法使得页面排序的准确率和首页命中率有了较大提高。  相似文献   

8.
在历史网页检索系统中,存在着按时间顺序来对检索结果进行排序的特殊需求,在客观上要求系统能够比较准确地判断文档与查询词是否相关。针对这一特殊需求,引入领域的概念,将领域用于用户检索的表示,在领域的基础上设计了一种带衰减因子的BM25检索相关性计算算法。实验结果显示该检索算法是有效的,引入领域后检索结果的F值平均提高了56.68%。  相似文献   

9.
多查询相关的排序支持向量机融合算法   总被引:3,自引:1,他引:2  
排序学习是目前信息检索与机器学习领域研究的热点问题.现有排序学习算法在学习时把训练样本集中的所有查询及其相关文档等同对待,忽视了查询之间的差异,影响了排序模型的性能.对查询之间的差异进行描述,并在训练过程中考虑这种差异,提出一种基于有监督学习的融合多个与查询相关排序子模型的方法.该方法为每一个查询及其相关文档建立一个子排序模型,并将子排序模型的输出进行向量化表示,将多个查询相关的排序模型转化为体现查询差异的特征数据,实现多排序模型的集成.以排序支持向量机为例,在查询级和样本级建立新的损失函数作为优化目标,并利用此损失函数调节不同查询产生损失之间的权重,提出多查询相关的排序支持向量机融合算法.在文档检索和网页检索中的实验结果表明,使用多查询相关的排序支持向量机融合算法可以取得比传统排序学习模型更好的性能.  相似文献   

10.
针对传统网页排序算法Okapi BM25通常会出现网页与查询关键词领域无关的领域漂移现象,以及改进算法需要人工建立领域向量的问题,提出了一种基于BM25和Softmax回归分类模型的网页搜索排序算法。该方法首先对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示,之后通过少量的网页数据来训练Softmax回归分类模型,来预测测试网页数据的类别分数,并与BM25信息检索的分数结合在一起,得到最终的网页排序结果。实验结果显示该检索算法无须人工建立领域向量,即可达到很好的网页排序结果。  相似文献   

11.
Collaborative social annotation systems allow users to record and share their original keywords or tag attachments to Web resources such as Web pages, photos, or videos. These annotations are a method for organizing and labeling information. They have the potential to help users navigate the Web and locate the needed resources. However, since annotations are posted by users under no central control, there exist problems such as spam and synonymous annotations. To efficiently use annotation information to facilitate knowledge discovery from the Web, it is advantageous if we organize social annotations from semantic perspective and embed them into algorithms for knowledge discovery. This inspires the Web page recommendation with annotations, in which users and Web pages are clustered so that semantically similar items can be related. In this paper we propose four graphic models which cluster users, Web pages and annotations and recommend Web pages for given users by assigning items to the right cluster first. The algorithms are then compared to the classical collaborative filtering recommendation method on a real-world data set. Our result indicates that the graphic models provide better recommendation performance and are robust to fit for the real applications.  相似文献   

12.
This paper is concerned with the problem of boosting social annotations using propagation, which is also called social propagation. In particular, we focus on propagating social annotations of web pages (e.g., annotations in Del.icio.us). Social annotations are novel resources and valuable in many web applications, including web search and browsing. Although they are developing fast, social annotations of web pages cover only a small proportion (<0.1%) of the World Wide Web. To alleviate the low coverage of annotations, a general propagation model based on Random Surfer is proposed. Specifically, four steps are included, namely basic propagation, multiple-annotation propagation, multiple-link-type propagation, and constraint-guided propagation. The model is evaluated on a dataset of 40,422 web pages randomly sampled from 100 most popular English sites and ten famous academic sites. Each page’s annotations are obtained by querying the history interface of Del.icio.us. Experimental results show that the proposed model is very effective in increasing the coverage of annotations while still preserving novel properties of social annotations. Applications of propagated annotations on web search and classification further verify the effectiveness of the model.  相似文献   

13.
针对传统PageRank算法存在的平分链接权重和忽略用户兴趣等问题,提出一种基于学习自动机和用户兴趣的页面排序算法LUPR。在所提方法中,给每个网页分配学习自动机,其功能是确定网页之间超链接的权重。通过对用户行为进一步分析,以用户的浏览行为衡量用户对网页的兴趣度,从而获得兴趣度因子。该算法根据网页间的超链接和用户对网页的兴趣度衡量网页权重计算每个网页的排名。最后的仿真实验表明,较传统的PageRank算法和WPR算法,改进后的LUPR算法在一定程度上提高了信息检索的准确度和用户满意度。  相似文献   

14.
在传统的Web网站中,网页的布局往往由网页制作人员安排并很少变化.为了更好的为网络用户提供服务,提出通过对Web日志的数据清洗,识别出每个用户在一个会话期内访问的页面,依据网页内客在逻辑上的关系和用户经常访问的页面,得到用户对网页内容的兴趣度矩阵及各子项目的兴趣度矩阵.对网络用户根据兴趣度短阵进行层次化的分类,得到每个...  相似文献   

15.
汤亚玲  崔志明 《计算机工程》2012,38(20):179-183
现有网页分类技术忽略用户个性行为的差异.为此,提出一种结合用户行为特征分析的网页分类技术.运用知识规则发现、页面特征提取等方法,分析Web用户的访问历史和个性化定制信息,学习并掌握用户的行为和兴趣.针对用户的认知特征,提供合适的Web页面分类模式,能在一定程度上改进单纯统计学网页分类方法在自然语言理解上的不足.实验数据表明,该分类方法与多种统计学方法相结合实施网页分类均能有效地提高分类准确率,使网页分类结果更接近分类的真实情形和要求.  相似文献   

16.
Web日志预处理中优化的会话识别方法   总被引:4,自引:0,他引:4  
针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。  相似文献   

17.
网页在其生命周期内的活跃程度会随时间发生变化。有的网页只在特定的阶段有价值,此后就会过时。从用户的角度对网页的生命周期进行分析可以提高网络爬虫和搜索引擎的性能,改善网络广告的效果。利用一台代理服务器收集的网页访问量信息,我们对网页的生命周期进行了研究,给出了用户兴趣演变的模型。这个模型有助于更好地理解网络的组织与运行机理。  相似文献   

18.
基于改进决策树算法的网络关键资源页面判定   总被引:12,自引:0,他引:12  
刘奕群  张敏  马少平 《软件学报》2005,16(11):1958-1966
关键资源页面是网络信息环境中一种重要的高质量页面,是用户进行网络信息检索的主要目标.决策树算法是机器学习中应用最广的归纳推理算法之一,适用于关键资源页面的判定.然而由于Web数据均一采样的困难性,算法缺乏有足够代表性的反例进行训练.为了解决这个问题,提出一种利用训练样例的统计信息而非个体信息进行学习的改进决策树算法,并利用这种算法实现了独立用户查询的关键资源页面判定.在2003年文本信息检索会议(Text Retrieval Confefence,简称TREC)标准的评测条件下,基于此种改进决策树算法的大规模网络信息检索实验获得了超过基本算法40%的性能提高.这不仅提供了一种查找Web关键资源页面的有效方式,也给出了提高决策树算法性能的一个可行途径.  相似文献   

19.
基于标记树的Web页面区域划分和搜索方法   总被引:4,自引:0,他引:4  
胡飞 《计算机科学》2005,32(8):182-185
Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区域划分和搜索方法,让软件系统可以忽略别的区域,快速定位到主要内容。对于大量Web页面处理而言,这种方法可以起到减少时间,缩小空间的作用,Web页面越多,效果就越显著。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号