首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
针对由于微博文本的数据特性造成的传统信息搜索方法无法直接实现微博话题内容搜索的问题,提出了一种基于卷积神经网络的微博话题内容搜索方法,对微博安全话题内容进行搜索和匹配排序。该方法包括基于深度卷积神经网络的微博内容筛选和微博内容匹配两部分。微博内容筛选依据深度卷积特征表示进行微博内容筛选,微博内容匹配通过卷积特征非线性变换对筛选结果进行匹配排序。微博内容筛选和微博内容匹配对国民安全话题相关的微博文本内容局部特征进行处理,对筛选结果进行相似度计算从而实现相似度匹配。实验结果表明该方法在微博搜索性能上优于现有同类方法,并验证了所提出方法针对安全话题的微博文本内容搜索的有效性。  相似文献   

2.
电商商品搜索引擎目前大多都是基于用户浏览行为与购买行为来建立搜索因子,通过这些因子计算出商品分地区的排序分值进行排序。然而这些行为数据都是属于历史数据。搜索的结果都是基于历史数据的分值计算没有前瞻性。特别对于换季商品使用该方式计算出来的搜索结果不佳,转化率不高。提出一种基于时间序列的分析方法,对部分的搜索因子采用预测数据来计算分值,以满足商品搜索中某些具有周期性季节性商品的合适排序。  相似文献   

3.
已有研究表明,时间是影响信息检索特别是微博检索的重要因素.现有的代表性工作是将时间信息作为文档先验融入统计语言检索模型,目前主要有跟查询无关和跟查询有关两种做法.这两种做法得到的模型均基于"时间越新文档越重要"这个简单假设.然而,对实际数据集进行分析发现,大多数微博查询的大部分相关文档并没有出现在最新时刻,因此上述假设并不成立.文中从这一点出发,定义这些相关文档集中出现的高峰点为热门时刻(Hot Time),并提出新假设"越靠近热门时刻,文档越重要".基于该假设,文中提出了基于热门时刻的4个系列模型(HTLMs).在此基础上,将查询无关模型看作是文档的背景时间信息而将查询有关模型看作是文档的独立时间信息,由此引入平滑思想提出混合的时间模型(MTLM).基于TREC Microblog数据的实验结果表明,HTLM模型优于现有的工作,而混合模型项对于单一模型会有进一步的提高.  相似文献   

4.
该文在分析总结影响微博用户推荐的四大类信息,包括用户的内容信息、个人信息、交互信息和社交拓扑信息的基础上,提出一个基于排序学习的微博用户推荐框架,排序学习的本质是用机器学习中的分类或回归方法解决排序问题,该框架可以综合各类信息特征进行用户推荐。实验结果表明 (1)融合多个特征综合推荐通常可以取得更好的推荐效果;(2)基于用户个人信息、交互信息、社交拓扑信息的推荐效果均好于基于用户内容的推荐效果。  相似文献   

5.
新浪微博是一个热门的社交平台,2012年底注册用户已经超过5亿。因此它和一般的网络应用一样存在信息爆炸的问题。提出一种基于神经网络的算法来将用户的实时搜索结果进行排序,以达到给出用户最感兴趣的信息。一系列实验结果证明该方法在一定范围内是有效的。  相似文献   

6.
7.
曹志鹏  刘勤让  刘冬培  张霞 《计算机工程》2021,47(7):168-175,182
从高效流量路由调度计算的角度出发,针对时间敏感流量调度中通常存在的计算效率低、迭代收敛慢等问题,提出一种基于最短路径负载均衡与改进遗传算法的流量调度方法.建立网络模型与流量模型并定义时间敏感网络中的流量传输约束,同时利用基于K最短路径的负载均衡路由算法与改进选择算子和交叉变异概率的遗传算法进行路由与调度计算.实验结果表...  相似文献   

8.
排序问题在信息检索领域是一个非常重要的课题。虽然排序学习模型的算法早已被深入研究,但针对排序学习算法中的特征选择的研究却很少。现实的情况是,许多用于分类的特征选择方法被直接应用到排序学习中。但由于排序和分类有着显著的差异,应研究出针对排序的特征选择算法。文中在介绍常用的排序学习的特征选择方法的基础上,提出了一种全新的、适用于QA问题的排序学习的特征选择方法一锦标赛排序特征选择方法。实验结果显示,这种新的特征选择方法在提高特征提取效率和降低特征向量维数方面都有显著改善。  相似文献   

9.
目的 视觉检索需要准确、高效地从大型图像或者视频数据集中检索出最相关的视觉内容,但是由于数据集中图像数据量大、特征维度高的特点,现有方法很难同时保证快速的检索速度和较好的检索效果。方法 对于面向图像视频数据的高维数据视觉检索任务,提出加权语义局部敏感哈希算法(weighted semantic locality-sensitive hashing, WSLSH)。该算法利用两层视觉词典对参考特征空间进行二次空间划分,在每个子空间里使用加权语义局部敏感哈希对特征进行精确索引。其次,设计动态变长哈希码,在保证检索性能的基础上减少哈希表数量。此外,针对局部敏感哈希(locality sensitive hashing, LSH)的随机不稳定性,在LSH函数中加入反映参考特征空间语义的统计性数据,设计了一个简单投影语义哈希函数以确保算法检索性能的稳定性。结果 在Holidays、Oxford5k和DataSetB数据集上的实验表明,WSLSH在DataSetB上取得最短平均检索时间0.034 25 s;在编码长度为64位的情况下,WSLSH算法在3个数据集上的平均精确度均值(mean average precision,mAP)分别提高了1.2%32.6%、1.7%19.1%和2.6%28.6%,与几种较新的无监督哈希方法相比有一定的优势。结论 通过进行二次空间划分、对参考特征的哈希索引次数进行加权、动态使用变长哈希码以及提出简单投影语义哈希函数来对LSH算法进行改进。由此提出的加权语义局部敏感哈希(WSLSH)算法相比现有工作有更快的检索速度,同时,在长编码的情况下,取得了更为优异的性能。  相似文献   

10.
代价敏感的列表排序算法   总被引:1,自引:0,他引:1  
排序学习是信息检索与机器学习中的研究热点之一.在信息检索中,预测排序列表中顶部排序非常重要.但是,排序学习中一类经典的排序算法——列表排序算法——无法强调预测排序列表中顶部排序.为了解决此问题,将代价敏感学习的思想融入到列表排序算法中,提出代价敏感的列表排序算法框架.该框架是在列表排序算法的损失函数中对文档引入权重,且基于性能评价指标NDCG计算文档的权重.在此基础之上,进一步证明了代价敏感的列表排序算法的损失函数是NDCG损失的上界.为了验证代价敏感的列表排序算法的有效性,在此框架下提出了一种代价敏感的ListMLE排序算法,并对该算法开展序保持与泛化性的理论研究工作,从理论上验证了该算法具有序保持特性.在基准数据集上的实验结果表明,在预测排序列表中顶部排序中,代价敏感的ListMLE比传统排序学习算法能取得更好的性能.  相似文献   

11.
图像搜索中重要的问题之一是如何有效地对搜索结果进行排序.现有图像搜索引擎的排序模型一般都基于相关文本而没有考虑图像的视觉特征.由于文本特征有时并不能很好地匹配图像的内容,所以搜索结果中会包含被错误排序的图像.针对该问题已经提出了视觉重排序方法,通过视觉信息来精炼基于文本的搜索结果.然而视觉重排序带来的性能提升有限,主要原因是基于文本的搜索结果中的错误会传播到视觉重排序阶段.本文基于排序学习的框架提出一个联合文本和视觉特征的图像排序学习模型,同时考虑了视觉和文本特征来进行排序学习,避免了视觉重排序中的错误传播.实验结果表明本文提出的排序模型显著地好于现有的重排序方法.  相似文献   

12.
随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。微博检索与传统文本检索在两个方面明显不同: 一是微博具有自己的特点,表现在文本短和内容中具有主题概括词(称为Hashtag);二是微博排序中除了考虑文本和语义相似度,还需考虑时间信息。根据这两点区别,该文在统计语言模型的基础上,使用聚类进行文本扩展,并将Hashtag信息运用到聚类过程中。同时,因为微博数据集中具有Hashtag的微博个数不超过13%,针对这一现象,该文还提出了一种扩展微博Hashtag的方法,最终提出了基于聚类的三个模型。然后通过定义文档先验将时间信息加入到提出的三个检索模型中,得到融入聚类和时间信息的三个模型。最后基于TREC Microblog数据的实验结果证明,融合聚类信息和时间信息的模型在MAP和P@30上有明显提高,分别提高7.1%和11.6%。  相似文献   

13.
在文本搜索领域,用自学习排序的方法构建排序模型越来越普遍。排序模型的性能很大程度上依赖训练集。每个训练样本需要人工标注文档与给定查询的相关程度。对于文本搜索而言,查询几乎是无穷的,而人工标注耗时费力,所以选择部分有信息量的查询来标注很有意义。提出一种同时考虑查询的难度、密度和多样性的贪心算法从海量的查询中选择有信息量的查询进行标注。在LETOR和从Web搜索引擎数据库上的实验结果,证明利用本文提出的方法能构造一个规模较小且有效的训练集。  相似文献   

14.
周诗龙  徐俊刚 《软件学报》2013,24(S2):150-161
目前,微博搜索大多应用向量空间模型计算查询词与文档间的相关程度,通常使用TF-IDF(termfrequency-inverse document frequency)统计方法来确定词的权重.然而仅使用词进行微博搜索并不能检测到某条微博的信息含量,而这些往往是查询用户所关注的问题.为此提出了一种基于分析特征与动态步长的微博排序学习算法.首先,定义了一些微博分析特征,经过统计分析获得的这些分析特征可以用来预测用户行为;其次,在此基础上,提出了以词性为单位计算微博相关度的方法,结合信息熵计算方法得到微博词性信息的含量,并用来预测该微博的信息含量;最后,在现有ListNet排序学习算法的基础上,引入了动态步长的概念,对步长进行了动态优化,最终形成了一种基于动态步长的微博排序学习算法——RDLS(ranking based on dynamic learning stepsize)算法.实验结果表明,无论是基于直接特征还是加入分析特征,在相同迭代轮数情况下,相比ListNet算法,RDLS 算法可以训练出更优的模型,在微博排序方面有更好的表现.  相似文献   

15.
文档排序一直是信息检索(IR)领域的关键任务之一。受益于马尔科夫决策过程强大的建模能力,以及强化学习方法强大的求解能力,近年来基于强化学习的排序模型被提出并取得了良好效果。然而,由于候选文档中会包含大量的不相关文档,导致基于“试错”的强化学习方法存在效率低下的问题。为解决上述问题,该文提出了一种基于模仿学习的排序学习算法IR-DAGGER,其基于文档标注信息构建专家策略,在保证文档排序精度的同时提高了算法的学习效率。为了测试IR-DAGGER的性能,该文基于面向相关性排序任务的OHSUMED数据集和面向多样化排序的TREC数据集进行了实验,实验结果表明IR-DAGGER在上述两个数据集上均提升了文档排序的精度和效率。  相似文献   

16.
查询扩展作为一门重要的信息检索技术,是以用户查询为基础,通过一定策略在原始查询中加入一些相关的扩展词,从而使得查询能够更加准确地描述用户信息需求。排序学习方法利用机器学习的知识构造排序模型对数据进行排序,是当前机器学习与信息检索交叉领域的研究热点。该文尝试利用伪相关反馈技术,在查询扩展中引入排序学习算法,从文档集合中提取与扩展词相关的特征,训练针对于扩展词的排序模型,并利用排序模型对新查询的扩展词集合进行重新排序,将排序后的扩展词根据排序得分赋予相应的权重,加入到原始查询中进行二次检索,从而提高信息检索的准确率。在TREC数据集合上的实验结果表明,引入排序学习算法有助于提高伪相关反馈的检索性能。  相似文献   

17.
随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。该文首先以TREC Microblog数据为基础,从分析微博文档和微博查询两方面出发,得出微博检索与传统文本检索之间的两点不同: 一是微博文档相较于网页具有很多独有的特征;二是微博查询属于时间敏感查询,即在排序时除了考虑文本的语义相似度,还需要考虑时间因素,将这类方法统称为时间感知的检索技术。这两点差异使得已有的信息检索技术不能满足微博搜索的需求。该文主要介绍了近年来这两方面的相关研究: 首先描述了微博本身的多种特征以及基于这些特征提出的检索方法;然后以传统信息检索过程为主线,分别介绍了将时间信息用于文本表示、文档先验、查询扩展三方面的排序模型,最后总结了已有工作并且对未来研究内容进行了展望。  相似文献   

18.
排序学习是当前信息检索领域研究热点之一。为了避免训练集中噪音的影响,当前排序学习算法较多关注鲁棒性。已有的工作发现相同的排序学习方法的性能在不同的数据集上会有截然不同的噪音敏感度。模型改变是导致性能下降的直接原因,而模型又是从训练集学习到的,因此根源在于训练数据的某些特性。该文根据具体排序学习场景分析得出影响噪音敏感度的根本原因在于训练集中文档对分布的结论,并在LETOR3.0上的实验验证了这一结论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号