首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
通用搜索引擎在检索过程中会出现查询结果与关键词所属领域无关的主题漂移现象.本文提出了面向特定领域的网页重排序算法-TSRR(Topic Sensitive Re-Ranking)算法,从一个新的视角对主题漂移问题加以解决. TSRR算法设计一种独立于网页排序的模型,用来表示领域,然后建立网页信息模型,在用户检索过程中结合领域向量模型和网页信息模型对网页搜索结果进行重排序.在爬取的特定领域的数据集上,以用户满意度和准确率为标准进行评估,实验结果表明,本文中提出的TSRR算法性能优异,比经典的基于Lucene的排序算法在用户满意度上平均提高17.3%,在准确率上平均提高41.9%.  相似文献   

2.
在历史网页检索系统中,存在着按时间顺序来对检索结果进行排序的特殊需求,在客观上要求系统能够比较准确地判断文档与查询词是否相关。针对这一特殊需求,引入领域的概念,将领域用于用户检索的表示,在领域的基础上设计了一种带衰减因子的BM25检索相关性计算算法。实验结果显示该检索算法是有效的,引入领域后检索结果的F值平均提高了56.68%。  相似文献   

3.
多查询相关的排序支持向量机融合算法   总被引:2,自引:1,他引:2  
排序学习是目前信息检索与机器学习领域研究的热点问题.现有排序学习算法在学习时把训练样本集中的所有查询及其相关文档等同对待,忽视了查询之间的差异,影响了排序模型的性能.对查询之间的差异进行描述,并在训练过程中考虑这种差异,提出一种基于有监督学习的融合多个与查询相关排序子模型的方法.该方法为每一个查询及其相关文档建立一个子排序模型,并将子排序模型的输出进行向量化表示,将多个查询相关的排序模型转化为体现查询差异的特征数据,实现多排序模型的集成.以排序支持向量机为例,在查询级和样本级建立新的损失函数作为优化目标,并利用此损失函数调节不同查询产生损失之间的权重,提出多查询相关的排序支持向量机融合算法.在文档检索和网页检索中的实验结果表明,使用多查询相关的排序支持向量机融合算法可以取得比传统排序学习模型更好的性能.  相似文献   

4.
基于向量空间模型的文本分类方法的文本表示具有高纬度、高稀疏的特点,特征表达能力较弱,且特征工程依赖人工提取,成本较高。针对该问题,提出基于双通道词向量的卷积胶囊网络文本分类算法。将Word2Vec训练的词向量与基于特定文本分类任务扩展的语境词向量作为神经网络的2个输入通道,并采用具有动态路由机制的卷积胶囊网络模型进行文本分类。在多个英文数据集上的实验结果表明,双通道的词向量训练方式优于单通道策略,与LSTM、RAE、MV-RNN等算法相比,该算法具有较高的文本分类准确率。  相似文献   

5.
提出一种新的网页排序方法-ClusterRank方法。该方法先对检索结果进行文本挖掘,然后利用Web网页的链接信息以及用户点击率对网页重要性的影响对挖掘结果进行排序。该算法可以引导用户进一步明确其检索需求。  相似文献   

6.
随着网络信息资源的迅速增加,对于主题Web文本信息的搜索与分类日益成为信息处理领域的一个重要问题。本文建立了一个面向化工领域的Web文本搜索与分类系统,该系统在crawler子系统搜集Web文档的基础上,利用支持向量机对网页进行二次分类,找出化工专业中文网页;然后利用向量空间模型,对分类好的专业网页进行多子类分类。与综合搜索引擎相比,具有速度快、搜索信息准确度高和具备学习能力的特点。  相似文献   

7.
基于余弦距离度量学习的伪K近邻文本分类算法   总被引:2,自引:0,他引:2  
距离度量学习在分类领域有着广泛的应用,将其应用到文本分类时,由于一般采用的向量空间模型(VSM)中的TF*IDF算法在对文本向量表达时向量均是维度相同并且归一化的,这就导致传统距离度量学习过程中采用的欧式距离作为相似度判别标准在文本分类领域往往无法取得预期的效果,在距离度量学习中的LMNN算法的启发下提出一种余弦距离度量学习算法,使其适应于文本分类领域,称之为CS-LMNN.考虑到文本分类领域中样本类偏斜情况比较普遍,提出采用一种伪K近邻分类算法与CS-LMNN结合实现文本分类,该算法首先利用CS-LMNN算法对训练数据进行距离度量学习,根据训练结果对测试数据使用伪K近邻分类算法进行分类,实验结果表明,该算法可以有效的提高分类精度.  相似文献   

8.
为了提高网页排序算法的效率,提高搜索引擎的检索质量,提出了融合反馈信息与内容相关度的PageRank改进算法。利用向量空间模型计算网页之间的主题相关性,得到网页的主题相关度权值。通过对网页被点击次数进行统计分析,得到网页点击量的增量权值。将这两个权值结合共同影响网页的PR(PageRank)值分配。通过仿真实验得到运用该算法后的实验结果,与其它算法的实验结果进行了比较,验证了该算法优于其它算法。  相似文献   

9.
针对信息检索领域特定类型实体的检索问题,在传统搜索引擎的基础上,提出一种基于多角度关联模型的实体检索方法,综合运用实体名识别(NER)、文本向量、关联规则等技术以及Wikipedia、Stanford NER等工具,并在TREC2010实体检索项目中进行评测。实验结果表明,与基于BM25和贝叶斯模型的检索方法相比,该方法的nDCG@R值平均提高11.49%和18.09%。  相似文献   

10.
检索结果的排序是信息检索领域中的一个重要问题,目前大多数检索模型都将排序学习问题归结为一个二值分类问题,但实验表明分类的准确性与检索的性能并没有直接的联系,一个分类学习算法可能获得很高的分类准性,但并不一定能够有很好的排序性能。本文在目前一些排序算法的基础上重点研究了基于边际(margin)的风险最小化排序学习框架,并对它的损失函数和计算复杂度进行了深入分析,最终得出一个高性能的排序学习算法,并在Corel图像集和TRECVID 2005-2007视频数据集上验证了该算法的有效性。  相似文献   

11.
Ranking web pages for presenting the most relevant web pages to user's queries is one of the main issues in any search engine. In this paper, two new ranking algorithms are offered, using Reinforcement Learning (RL) concepts. RL is a powerful technique of modern artificial intelligence that tunes agent's parameters, interactively. In the first step, with formulation of ranking as an RL problem, a new connectivity-based ranking algorithm, called RL_Rank, is proposed. In RL_Rank, agent is considered as a surfer who travels between web pages by clicking randomly on a link in the current page. Each web page is considered as a state and value function of state is used to determine the score of that state (page). Reward is corresponded to number of out links from the current page. Rank scores in RL_Rank are computed in a recursive way. Convergence of these scores is proved. In the next step, we introduce a new hybrid approach using combination of BM25 as a content-based algorithm and RL_Rank. Both proposed algorithms are evaluated by well known benchmark datasets and analyzed according to concerning criteria. Experimental results show using RL concepts leads significant improvements in raking algorithms.  相似文献   

12.
陈伟柱  陈英  吴燕 《计算机应用》2005,25(5):995-997,1003
提出了一种基于分类技术的搜索引擎新排名算法CategoryRank。该算法能够借助类别信息,更加准确地计算网页的排名得分,提高搜索引擎排名的准确性。算法基于任意两个网页之间的类别信息,对链接图进行了分析和计算,并且与PageRank等算法进行相比,该算法能够更加准确地模拟用户浏览网页的习惯。同时针对Web中的每个网页,算法计算出它的类别属性,直接体现了该页面针对不同用户的重要程度。最后,把该算法的离线模型扣在线模型统一起来,阐明了算法在搜索引擎排名中的运行机制。  相似文献   

13.
With the development of mobile technology, the users browsing habits are gradually shifted from only information retrieval to active recommendation. The classification mapping algorithm between users interests and web contents has been become more and more difficult with the volume and variety of web pages. Some big news portal sites and social media companies hire more editors to label these new concepts and words, and use the computing servers with larger memory to deal with the massive document classification, based on traditional supervised or semi-supervised machine learning methods. This paper provides an optimized classification algorithm for massive web page classification using semantic networks, such as Wikipedia, WordNet. In this paper, we used Wikipedia data set and initialized a few category entity words as class words. A weight estimation algorithm based on the depth and breadth of Wikipedia network is used to calculate the class weight of all Wikipedia Entity Words. A kinship-relation association based on content similarity of entity was therefore suggested optimizing the unbalance problem when a category node inherited the probability from multiple fathers. The keywords in the web page are extracted from the title and the main text using N-gram with Wikipedia Entity Words, and Bayesian classifier is used to estimate the page class probability. Experimental results showed that the proposed method obtained good scalability, robustness and reliability for massive web pages.  相似文献   

14.
A path-based approach for web page retrieval   总被引:1,自引:0,他引:1  
Use of links to enhance page ranking has been widely studied. The underlying assumption is that links convey recommendations. Although this technique has been used successfully in global web search, it produces poor results for website search, because the majority of the links in a website are used to organize information and convey no recommendations. By distinguishing these two kinds of links, respectively for recommendation and information organization, this paper describes a path-based method for web page ranking. We define the Hierarchical Navigation Path (HNP) as a new resource for improving web search. HNP is composed of multi-step navigation information in visitors’ website browsing. It provides indications of the content of the destination page. We first classify the links inside a website. Then, the links for web page organization are exploited to construct the HNPs for each page. Finally, the PathRank algorithm is described for web page retrieval. The experiments show that our approach results in significant improvements over existing solutions.  相似文献   

15.
针对个性化站点较少考虑用户检索意图的问题,提出结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法,旨在不需要用户任何反馈的条件下,为用户推荐更满意的检索结果。通过过滤用户请求个性化站点时的访问地址,获取用户浏览的网页文本内容,从中提取能够表示用户检索意图的关键词集进行重新检索后对检索结果排序,最后将排序后的结果作为推荐模块返回给用户。实验表明,利用该方法获得的查询推荐结果能够更加符合用户检索意图,提供更好的用户体验。  相似文献   

16.
代价敏感的排序支持向量机将样本的排序问题转换为样本对的分类问题,以适应Web信息检索.然而急剧膨胀的训练样本对使得学习时间过长.为此,文中提出一种支持二次误差的代价敏感的平滑型排序支持向量机(cs-sRSVM),用分段多项式光滑函数近似铰链损失函数,将优化目标转变为无约束问题.再由Newton-YUAN算法求无约束问题的唯一最优解.在排序学习公开数据集LETOR的实验表明,cs-sRSVM与已有的代价敏感排序算法相比,训练时间更短,而检索性能同样出色.  相似文献   

17.
李慧  李存华  王霞 《计算机工程》2010,36(13):37-39
为提高网页排名满意度,基于特征选择技术提出一种新的页面排名算法。该算法利用多特征选择技术对页面的特征子集进行筛选,寻找一组具有最大权值与最小相似性的特征集合。在通用信息检索数据集上进行特征词选择测试,结果表明该算法的性能优于传统排名 算法。  相似文献   

18.
李劲  张华  吴浩雄  向军  辜希武 《计算机应用》2012,32(5):1335-1339
社会标注是一种用户对网络资源的大众分类,蕴含了丰富的语义信息,因此将社会标注应用到信息检索技术中有助于提高信息检索的质量。研究了一种基于社会标注的文本分类改进算法以提高网页分类的效果。由于社会标注属于大众分类,标注的产生具有很大的随意性,标注的质量差别很大,因此首先利用文档间的语义相似度以及标注间的语义相似度来对标注的质量进行量化评估。在此基础上对标注进行质量过滤,利用质量相对较好的标注对文档向量空间模型进行扩展,将文档表示成由文档单词以及文档标注信息组成的扩展向量。同时采用支持向量机分类算法进行分类实验。实验结果表明,通过对标注进行质量评估并过滤质量差的标注,同时结合文档内容以及标注来对文档能提高分类的效果,同传统的基于文档内容的分类算法相比,分类结果的F1度量值提高了6.2%。  相似文献   

19.
针对互联网日益泛滥的色情信息,分析了向量空间模型中KNN算法,并对它的缺陷进行了改进,将其运用于色情网页过滤中,提出了一种色情网页过滤解决方案。该方法首先对特征项的选取和权重计算的方法进行了优化,然后使用改进后KNN算法进行网页分类。实验表明,通过改进,有效地降低了向量空间的维数,提高了网页分类的精度和速度,能有效地识别并过滤色情网页。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号