首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
通用搜索引擎在检索过程中会出现查询结果与关键词所属领域无关的主题漂移现象.本文提出了面向特定领域的网页重排序算法-TSRR(Topic Sensitive Re-Ranking)算法,从一个新的视角对主题漂移问题加以解决. TSRR算法设计一种独立于网页排序的模型,用来表示领域,然后建立网页信息模型,在用户检索过程中结合领域向量模型和网页信息模型对网页搜索结果进行重排序.在爬取的特定领域的数据集上,以用户满意度和准确率为标准进行评估,实验结果表明,本文中提出的TSRR算法性能优异,比经典的基于Lucene的排序算法在用户满意度上平均提高17.3%,在准确率上平均提高41.9%.  相似文献   

2.
文章介绍了体育新闻搜索引擎系统 Geeking 的框架结构和各项功能,其结构分为网页爬取、胜者表构建、检索处理、用户界面 4 个部分,其主要功能包含查询词校正、自动补全、检索结果排序、相似新闻聚类以及显示页面中关键词高亮并提供网页快照。输入查询请求时,系统根据搜索日志和新闻热词自动补全查询词,搜索不到相关结果时校正查询,给出推荐的查询词。检索新闻文档时,使用胜者表快速查找查询词项的相关文档,综合 tf-idf 权重和新闻标题、发布时间等因素计算文档的相关性并按得分排序。在相似新闻聚类中,结合最长公共子序列和编辑距离衡量新闻标题之间的相似度,以新闻标题相似度代表新闻文档的相似度。测试结果表明,基于胜者表的 Geeking 搜索引擎系统各项功能协调效果好,检索响应速度快。  相似文献   

3.
《计算机工程》2017,(5):179-184
针对传统PageRank算法存在主题漂移、网页权值均分等问题,提出一种改进的PageRank算法。为提高用户查询效率和搜索质量,结合时间反馈因子对用户转发、用户评论和微博提及行为进行综合分析,采用统计分析方法对用户行为在微博用户影响力排序中的贡献进行度量,并利用改进的TF-IDF算法计算主题相似度权值使用户能够选择相关度较高的网页,从而获得相对应的PageRank权值。实验结果表明,与微博常用排序算法相比,改进PageRank算法具有更好的用户影响力排序效果。  相似文献   

4.
一种基于社会性标注的网页排序算法   总被引:2,自引:0,他引:2  
社会性标注作为一种新的资源管理和共享方式,吸引为数众多的用户参与其中,由此产生的大量社会性标注数据成为网页质量评价的一个新维度.文中研究如何利用社会性标注改进网页检索性能,提出一种有机结合网页和用户的查询相关性与互增强关系的网页排序算法.首先利用统计主题模型,使用相关标签为网页和用户建模,并计算查询相关性.然后利用二部图模型刻画网页和用户间的互增强关系,并使用相关标签与用户兴趣和网页内容的匹配度为互增强关系赋予权重.最后结合查询相关性和互增强关系,以迭代方式同时计算网页和用户的评分.实验结果表明,文中提出的检索模型和互增强模型能够有效地提高排序算法的性能.与目前的代表性算法相比,该算法在检索性能上有明显提高.  相似文献   

5.
提出一种基于新闻时效性的协同过滤推荐算法. 首先对新闻的时效性进行了特征分析, 建立了新闻时效性模型, 然后结合新闻时效性改进了基于用户的协同过滤算法. 最后进行了仿真实验, 实验结果表明, 该方法可以有效提高推荐算法的性能, 改善新闻推荐准确度和召回率.  相似文献   

6.
针对传统方法不能很好地处理网页中简短域和用户查询之间的相关性排序问题,提出一种改进的编辑距离(MED)排序算法,在编码和计算过程中引入查询词分布的位置、顺序和距离等信息,将查询和简短域之间的相关性问题转化为编码字符串的相似性问题。仿真实验结果表明,与传统的相关性排序算法相比,该算法可以提高网页搜索中简短网页域的相关性排序性能。  相似文献   

7.
针对Google PageRank算法中存在的“平均分配原则”及网络链接结构所造成的“旧网页问题”、“主题漂移问题”,提出一种改进的网页排序算法N-PageRank.该算法通过对搜索日志进行数据挖掘,捕捉用户与搜索引擎之间的交互过程,发现隐藏在用户搜索行为背后的用户兴趣和搜索规律,利用用户行为反馈模型,分析网络日志里用户的各项行为特点,改善了排序结果的准确率,保证了搜索引擎的返回结果正是用户所希望看到的网页.实验证明该算法有效地降低了网页排序时的客观因素的影响,充分考虑了用户对于网页质量的评价,所得到的排序结果更加能够满足用户的需求.  相似文献   

8.
随着问答社区信息的长期积累,越来越多的过时信息充斥在其中并被搜索引擎检索,给信息需求者带来不便。用户的网页浏览日志中隐性地包含用户的行为习惯,通过分析得到这些信息对判断网页信息时效性有着重要意义。文中提出针对网页浏览日志的查询过程划分方法,并在划分的基础之上对大量真实用户的浏览行为习惯做了统计分析。结果显示,用户查询一次信息平均浏览8.05个页面,用时6.28分钟,有将近1/3的查询在交替并发中进行,另外用户对于网站站内搜索的依赖较高。从浏览日志数据集中选取了一个社区网站的浏览记录来进行初步的网页信息时效性分析,结果表明造成用户不满意的原因主要是查询相关度不高,而过时信息只是其中一小部分。  相似文献   

9.
数据时效性判定问题的求解算法   总被引:1,自引:0,他引:1  
李默涵  李建中  高宏 《计算机学报》2012,35(11):2348-2360
数据的时效性问题是影响数据质量的重要因素之一.时效性差的数据会对企业决策和人们的日常生活带来许多不利影响,这使得判定数据的时效性成为必要.许多应用数据库中都没有完整、清洁、可用的时间戳,从而导致数据时效性的判定非常困难.冗余记录和时效约束能够在时间戳缺失的情况下有效地辅助恢复数据的时序关系,因而能够帮助数据时效性的判定.文中研究包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性判定问题的求解算法.首先,文中定义了查询相关时效性和用户相关时效性.在判定查询相关时效性时,文中将查询归结为最新值查询和时效序列查询两类,并分别根据两类查询的特点,对每类查询定义了查询结果时效性和平均时效性.然后,文中提出了时效图的概念.利用时效图,文中给出了查询相关时效性和用户相关时效性判定问题的求解算法.最后给出了真实数据和虚拟数据上的实验结果,验证了文中算法较高的执行效率,并分析了各个参数对算法的影响.  相似文献   

10.
以Web 2.0中用户行为作为研究对象,通过发掘用户反馈方式,提出用户反馈分值的概念,对用户反馈影响搜索结果排名的具体方法以及相应实现进行研究,提出了一种基于神经网络的网页排序算法。该算法引入BP神经网络模型,根据用户反馈分值选择样本训练神经网络。将传统搜索结果输入到经过训练的神经网络进行计算,根据计算出的结果所表示的网页相关性强弱判断后进行二次排序。该算法利用了神经网络具有的模式识别能力,有效地将用户反馈和搜索引擎结合起来,使得搜索结果更加符合用户的搜索要求。  相似文献   

11.
近年来微博检索已经成为信息检索领域的研究热点。相关的研究表明,微博检索具有时间敏感性。已有工作根据不同的时间敏感性假设,例如,时间越新文档越相关,或者时间越接近热点时刻文档越相关,得到多种不同的检索模型,都在一定程度上提高了检索效果。但是这些假设主要来自于观察,是一种直观简化的假设,仅能从某个方面反映时间因素影响微博排序的规律。该文验证了微博检索具有复杂的时间敏感特性,直观的简化假设并不能准确地描述这种特性。在此基础上提出了一个利用微博的时间特征和文本特征,通过机器学习的方式来构建一个针对时间敏感的微博检索的排序学习模型(TLTR)。在时间特征上,考察了查询相关的全局时间特征以及查询-文档对的局部时间特征。在TREC Microblog Track 20112012数据集上的实验结果表明,TLTR模型优于现有的其他时间敏感的微博排序方法。  相似文献   

12.
互联网技术的飞速发展增强了用户与网络新闻间的交互性,使得网络新闻不仅包含传统的新闻内容和时间信息,还包含读者心情等交互信息。如何充分挖掘新闻特性,为用户提供便捷的浏览体验已逐渐成为新闻相关领域的研究热点。为方便用户通过输入查询词和心情浏览感兴趣的新闻,该文在考虑新闻的传统特性的同时,融合读者心情要素,提出一种全新的新闻推送方法。该方法重点研究依据读者心情的新闻排序算法,并考虑新闻内容与用户查询的主题相关性,以及新闻重要程度随时间衰减的特性,最终实现一种全新的新闻推送模式。基于所提方法,该文设计了一个融合读者心情要素的新闻推送系统,验证了该方法的有效性。  相似文献   

13.
Search engines retrieve and rank Web pages which are not only relevant to a query but also important or popular for the users. This popularity has been studied by analysis of the links between Web resources. Link-based page ranking models such as PageRank and HITS assign a global weight to each page regardless of its location. This popularity measurement has shown successful on general search engines. However unlike general search engines, location-based search engines should retrieve and rank higher the pages which are more popular locally. The best results for a location-based query are those which are not only relevant to the topic but also popular with or cited by local users. Current ranking models are often less effective for these queries since they are unable to estimate the local popularity. We offer a model for calculating the local popularity of Web resources using back link locations. Our model automatically assigns correct locations to the links and content and uses them to calculate new geo-rank scores for each page. The experiments show more accurate geo-ranking of search engine results when this model is used for processing location-based queries.  相似文献   

14.
Time plays important roles in Web search, because most Web pages contain temporal information and a lot of Web queries are time-related. How to integrate temporal information in Web search engines has been a research focus in recent years. However, traditional search engines have little support in processing temporal-textual Web queries. Aiming at solving this problem, in this paper, we concentrate on the extraction of the focused time for Web pages, which refers to the most appropriate time associated with Web pages, and then we used focused time to improve the search efficiency for time-sensitive queries. In particular, three critical issues are deeply studied in this paper. The first issue is to extract implicit temporal expressions from Web pages. The second one is to determine the focused time among all the extracted temporal information, and the last issue is to integrate focused time into a search engine. For the first issue, we propose a new dynamic approach to resolve the implicit temporal expressions in Web pages. For the second issue, we present a score model to determine the focused time for Web pages. Our score model takes into account both the frequency of temporal information in Web pages and the containment relationship among temporal information. For the third issue, we combine the textual similarity and the temporal similarity between queries and documents in the ranking process. To evaluate the effectiveness and efficiency of the proposed approaches, we build a prototype system called Time-Aware Search Engine (TASE). TASE is able to extract both the explicit and implicit temporal expressions for Web pages, and calculate the relevant score between Web pages and each temporal expression, and re-rank search results based on the temporal-textual relevance between Web pages and queries. Finally, we conduct experiments on real data sets. The results show that our approach has high accuracy in resolving implicit temporal expressions and extracting focused time, and has better ranking effectiveness for time-sensitive Web queries than its competitor algorithms.  相似文献   

15.
16.
Jansen  Bernard J.  Goodrum  Abby  Spink  Amanda 《World Wide Web》2000,3(4):249-254
The development of digital libraries has enhanced the integration of textual and multimedia information in many document collections. The World Wide Web provides the connectivity for many digital library users. Studies exploring the searching characteristics of Web users are an important and a growing area of research. Most Web user studies have focused on general Web searching, regardless of subject matter or format. Little research has examined how Web users search for multimedia information. Our study examines users' multimedia searching on a major Web search service. The data set examined consisted of 1,025,908 queries from 211,058 users of Excite ®, a major Web search service. From this data set, we identified and analyzed queries for audio, image, and video queries. Our findings were compared to results from general Web searching studies. Implications for the design of Web searching services and interfaces are discussed.  相似文献   

17.
P2P系统中,请求资源的节点发出搜索请求,并从提供资源的节点接收资源信息列表。而目前实际应用的许多P2P系统都忽略了资源质量的信息。请求资源的节点无从获知资源列表中资源的质量信息,导致用户往往对众多相似的资源感到无所适从,常常需要作多次尝试才找到满意的资源)。文章根据P2P系统的特征,结合传统Web搜索引擎和现实中超市服务的模型的优点,提出了一种资源质量评价策略,较好地解决了上述问题。  相似文献   

18.
Search engines play a key role for Internet users when searching for information. The vast majority of users are heavily influenced by the given ranking on the search engine results page (SERP). In this study, N?=?222 university students were tasked to inform themselves about the working conditions in South Asia on the basis of given SERPs. Besides the ranking on the SERP, two credibility cues – the type of the website (news site, corporate website, research institute, and private blog) and the primary source of information mentioned in the search result (scientific study vs. corporate spokesperson) – were varied. Two research objectives were examined: the influence of the ranking and the credibility cues on the evaluation of search results; and the effect of both ranking and credibility cues on the selection. Credibility cues had a strong influence on the perception of the search results’ credibility. Students rated the credibility higher if search results linked to reputable websites or mentioned a neutral primary source of information. We also find an interaction effect between the type of website and the primary source of information. However, participants’ selection was mainly influenced by the ranking. Reasons for this discrepancy are discussed.  相似文献   

19.
20.
一种新的道路网络连续查询处理方法   总被引:1,自引:1,他引:0  
基于道路网络的连续k近邻查询是移动对象数据库领域的研究重点和热点.提出了一种新的道路网络有向图模型,通过引入有向网络空间度量,利用基于内存的格网索引和线性链表结构来对移动对象当前位置和道路网络有向图模型进行存储和管理;基于有向距离度量提出了单向网络扩展(DNE)算法,以减少连续k近邻查询的网络扩展搜索代价.实验结果表明,DNE算法性能优于现有的连续k近邻查询处理算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号