共查询到19条相似文献,搜索用时 125 毫秒
1.
2.
通用搜索引擎在检索过程中会出现查询结果与关键词所属领域无关的主题漂移现象.本文提出了面向特定领域的网页重排序算法-TSRR(Topic Sensitive Re-Ranking)算法,从一个新的视角对主题漂移问题加以解决. TSRR算法设计一种独立于网页排序的模型,用来表示领域,然后建立网页信息模型,在用户检索过程中结合领域向量模型和网页信息模型对网页搜索结果进行重排序.在爬取的特定领域的数据集上,以用户满意度和准确率为标准进行评估,实验结果表明,本文中提出的TSRR算法性能优异,比经典的基于Lucene的排序算法在用户满意度上平均提高17.3%,在准确率上平均提高41.9%. 相似文献
3.
为了提高网页排序的准确性,提出一种基于ε-贪婪学习和用户点击行为的网页排序算法。首先,根据用户查询,通过轮盘赌策略向用户推荐相关网页列表;然后,根据用户点击网页的行为进行ε-贪婪学习,计算得到排序系统中的强化信号,通过奖励和惩罚机制为每个网页计算相关性程度值;最后,根据相关性程度对网页进行重新排序。随着用户反馈的信息越来越多,相关网页会排列在列表的最高等级上。实验结果表明,提出的算法能够准确地推荐出相关网页,在P@n、NDCG和MAP性能指标上都获得了较优的性能。 相似文献
4.
基于网站影响力的网页排序算法 总被引:1,自引:0,他引:1
传统的排序算法主要是根据网页之间的链接关系进行排序,没有考虑到网站与网页之间互相增强的关系和用户对网页的重要性的评价。为此提出了一种基于更新时间、网页权威性和用户对网页的反映的相关排序算法。该算法以网站为节点计算每个网站权威值,在为网页分配权威值时考虑了网页在网站内的位置和用户对其的反映,并通过网站与网页之间相互影响的关系来相互反馈。实验结果表明,与传统的PageRank、HITS等排序算法相比,该算法在检索性能上有明显提高。 相似文献
5.
针对传统方法不能很好地处理网页中简短域和用户查询之间的相关性排序问题,提出一种改进的编辑距离(MED)排序算法,在编码和计算过程中引入查询词分布的位置、顺序和距离等信息,将查询和简短域之间的相关性问题转化为编码字符串的相似性问题。仿真实验结果表明,与传统的相关性排序算法相比,该算法可以提高网页搜索中简短网页域的相关性排序性能。 相似文献
6.
基于社会性标注的本体学习方法 总被引:2,自引:0,他引:2
由相互协作的用户在社会性标注系统中产生的大量的标注数据可以作为各种语义网应用的数据源.文中提出一种基于社会性标注的本体学习方法来挖掘蕴涵在社会性标注中的语义信息,提出一种隐含包容层次结构来刻画标签空间中潜在的结构,并基于此模型推导出本体学习算法.首先利用集合论的方法确定标签之间的包容关系,并将其表示为标签包容关系图.在将此图转化为层次关系时,为解决包容关系的不一致性,提出一种基于随机游走的标签普遍性排序方法.最后提出一种自顶向下的凝聚式层次聚类算法来生成概念层次结构.在实际社会性标注系统中采集的数据集上进行的实验表明,与目前的代表性方法相比,文中提出的方法在性能上有明显的提高. 相似文献
7.
朱宝华 《计算机与数字工程》2014,(10)
搜索引擎中用户查询和网页资源之间的相似度研究一直是页面排序的研究核心。利用 HowNet 对词语的语义层次架构模型,对用户的检索词进行兴趣挖掘,同时对检索词和挖掘出的兴趣关键词的语义相似度计算方法进行改进,用户的检索请求与分块后的网页资源进行相似度迭代计算。实验结果表明,改进的算法使得页面排序的准确率和首页命中率有了较大提高。 相似文献
8.
9.
多查询相关的排序支持向量机融合算法 总被引:3,自引:1,他引:2
排序学习是目前信息检索与机器学习领域研究的热点问题.现有排序学习算法在学习时把训练样本集中的所有查询及其相关文档等同对待,忽视了查询之间的差异,影响了排序模型的性能.对查询之间的差异进行描述,并在训练过程中考虑这种差异,提出一种基于有监督学习的融合多个与查询相关排序子模型的方法.该方法为每一个查询及其相关文档建立一个子排序模型,并将子排序模型的输出进行向量化表示,将多个查询相关的排序模型转化为体现查询差异的特征数据,实现多排序模型的集成.以排序支持向量机为例,在查询级和样本级建立新的损失函数作为优化目标,并利用此损失函数调节不同查询产生损失之间的权重,提出多查询相关的排序支持向量机融合算法.在文档检索和网页检索中的实验结果表明,使用多查询相关的排序支持向量机融合算法可以取得比传统排序学习模型更好的性能. 相似文献
10.
11.
Exploring Social Annotations with the Application to Web Page Recommendation 总被引:1,自引:0,他引:1 下载免费PDF全文
Hui-Qian Li 《计算机科学技术学报》2009,24(6):1028-1035
Collaborative social annotation systems allow users to record and share their original keywords or tag attachments to Web
resources such as Web pages, photos, or videos. These annotations are a method for organizing and labeling information. They
have the potential to help users navigate the Web and locate the needed resources. However, since annotations are posted by
users under no central control, there exist problems such as spam and synonymous annotations. To efficiently use annotation
information to facilitate knowledge discovery from the Web, it is advantageous if we organize social annotations from semantic
perspective and embed them into algorithms for knowledge discovery. This inspires the Web page recommendation with annotations,
in which users and Web pages are clustered so that semantically similar items can be related. In this paper we propose four
graphic models which cluster users, Web pages and annotations and recommend Web pages for given users by assigning items to
the right cluster first. The algorithms are then compared to the classical collaborative filtering recommendation method on
a real-world data set. Our result indicates that the graphic models provide better recommendation performance and are robust
to fit for the real applications. 相似文献
12.
This paper is concerned with the problem of boosting social annotations using propagation, which is also called social propagation. In particular, we focus on propagating social annotations of web pages (e.g., annotations in Del.icio.us). Social annotations
are novel resources and valuable in many web applications, including web search and browsing. Although they are developing
fast, social annotations of web pages cover only a small proportion (<0.1%) of the World Wide Web. To alleviate the low coverage
of annotations, a general propagation model based on Random Surfer is proposed. Specifically, four steps are included, namely
basic propagation, multiple-annotation propagation, multiple-link-type propagation, and constraint-guided propagation. The
model is evaluated on a dataset of 40,422 web pages randomly sampled from 100 most popular English sites and ten famous academic
sites. Each page’s annotations are obtained by querying the history interface of Del.icio.us. Experimental results show that
the proposed model is very effective in increasing the coverage of annotations while still preserving novel properties of
social annotations. Applications of propagated annotations on web search and classification further verify the effectiveness
of the model. 相似文献
13.
针对传统PageRank算法存在的平分链接权重和忽略用户兴趣等问题,提出一种基于学习自动机和用户兴趣的页面排序算法LUPR。在所提方法中,给每个网页分配学习自动机,其功能是确定网页之间超链接的权重。通过对用户行为进一步分析,以用户的浏览行为衡量用户对网页的兴趣度,从而获得兴趣度因子。该算法根据网页间的超链接和用户对网页的兴趣度衡量网页权重计算每个网页的排名。最后的仿真实验表明,较传统的PageRank算法和WPR算法,改进后的LUPR算法在一定程度上提高了信息检索的准确度和用户满意度。 相似文献
14.
在传统的Web网站中,网页的布局往往由网页制作人员安排并很少变化.为了更好的为网络用户提供服务,提出通过对Web日志的数据清洗,识别出每个用户在一个会话期内访问的页面,依据网页内客在逻辑上的关系和用户经常访问的页面,得到用户对网页内容的兴趣度矩阵及各子项目的兴趣度矩阵.对网络用户根据兴趣度短阵进行层次化的分类,得到每个... 相似文献
15.
16.
17.
18.
基于改进决策树算法的网络关键资源页面判定 总被引:12,自引:0,他引:12
关键资源页面是网络信息环境中一种重要的高质量页面,是用户进行网络信息检索的主要目标.决策树算法是机器学习中应用最广的归纳推理算法之一,适用于关键资源页面的判定.然而由于Web数据均一采样的困难性,算法缺乏有足够代表性的反例进行训练.为了解决这个问题,提出一种利用训练样例的统计信息而非个体信息进行学习的改进决策树算法,并利用这种算法实现了独立用户查询的关键资源页面判定.在2003年文本信息检索会议(Text Retrieval Confefence,简称TREC)标准的评测条件下,基于此种改进决策树算法的大规模网络信息检索实验获得了超过基本算法40%的性能提高.这不仅提供了一种查找Web关键资源页面的有效方式,也给出了提高决策树算法性能的一个可行途径. 相似文献
19.
基于标记树的Web页面区域划分和搜索方法 总被引:4,自引:0,他引:4
Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区域划分和搜索方法,让软件系统可以忽略别的区域,快速定位到主要内容。对于大量Web页面处理而言,这种方法可以起到减少时间,缩小空间的作用,Web页面越多,效果就越显著。 相似文献