首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
PageRank基于链接分析计算页面的权威度,衡量网页的权威性,实现搜索结果的等级排序。文章针对传统PageRank存在的主题漂移问题提出了一种基于查询主题相关性的改进算法。通过引入搜索页面与查询主题的相关性度量,有效地抑制了传统PageRank算法的主题漂移问题,并通过实例加以验证。  相似文献   

2.
印佳  程春玲  周剑 《计算机科学》2017,44(8):181-186
为了满足用户的多元化需求和提高用户查询的满意度,出现了多样化排序算法的研究,但是目前多样化排序算法在多样化和相关性之间不能达到很好的平衡,且查询处理效率不能完全适应实际的交互需求,为此提出了一种基于极小独立支配集的多样化排序算法。将多样化子集选取问题转化为无向加权图的极小独立支配集的求解问题,以此兼顾查询结果的多样化和相关性;在求解过程中通过引入抛弃子集的概念来减少冗余顶点对之间距离的比较,加快算法求解的速度。仿真实验表明,所提算法在多样化性能和查询处理效率方面有一定的提升。  相似文献   

3.
传统PageRank算法仅仅通过网页链接结构来确定网页的PageRank值,这通常会导致主题漂移问题,即主题内容不相关的网页PageRank值较高。改进的PageRank算法根据链接的网页之间的内容相关性分配rank值,并且将网页的时间因素考虑在内,提高新的内容相关网页的rank值。实验结果证明,改进后的算法有效解决原算法的主题漂移问题,并使新网页在排序结果中上升。  相似文献   

4.
在信息检索和机器学习领域,大部分排序学习方法假设查询中的各个对象均满足独立同分布.虽然该假设简化了排序问题,却未能利用目标对象之间隐藏的相关性信息.在全监督排序和直推式排序2个问题中分别提出了新的方法,充分地利用了对象间的关系.在全监督排序问题中,将对象相关性映射为RBF Kernel,作为约束项加入优化目标,使得优化过程中越相似的对象打分越接近,即全局一致性思想.在直推式排序问题中,利用对象相关性将每个查询映射为图结构,设计了新的基于图结构的查询相似度度量,使得优化过程中越相似的查询,该查询内的对象对预测查询的影响越大.实验结果表明,加入对象之间的相关性提升了全监督排序算法和直推式排序算法的性能.  相似文献   

5.
利用社会化标注对网页检索进行改进,提出一种加权的社会化SimRank算法。从社会化标注系统中提取网页以及标签词之间的相似度信息。分别用这2类相似度信息来计算网页本身的质量同网页与查询之间的相关性。依据网页的质量和相关性信息对网页进行重排序。在del.icio.us网站抽取真实标注数据集进行实验,结果表明,该方法挖掘到的信息能够较好地改善网页检索效果。  相似文献   

6.
在信息检索和机器学习领域,大部分排序学习方法假设查询中的各个对象均满足独立同分布.虽然该假设简化了排序问题,却未能利用目标对象之闻隐藏的相关性信息.在全监督排序和直推式排序2个问题中分别提出了新的方法,充分地利用了对象间的关系.在全监督排序问题中,将对象相关性映射为RBF Kernel,作为约束项加入优化目标,使得优化过程中越相似的对象打分越接近,即全局一致性思想.在直推式排序问题中,利用对象相关性将每个查询映射为图结构,设计了新的基于图结构的查询相似度度量,使得优化过程中越相似的查询,该查询内的对象对预测查询的影响越大.实验结果表明,加入对象之间的相关性提升了全监督排序算法和直推式排序算法的性能.  相似文献   

7.
语义相似的PageRank改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
PageRank算法是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性。但由于它只考虑网页与网页之间的链接结构,忽略了网页与主题的相关性,容易造成主题漂移现象。在分析了原PageRank算法基础上,给出了一种基于语义相似度的PageRank改进算法。该算法能够按照网页结构和网页主要内容计算出网页的PageRank值,既不会增加算法的时空复杂度,又极大地减少了"主题漂移"现象,从而提高查询效率和质量。  相似文献   

8.
多查询相关的排序支持向量机融合算法   总被引:3,自引:1,他引:2  
排序学习是目前信息检索与机器学习领域研究的热点问题.现有排序学习算法在学习时把训练样本集中的所有查询及其相关文档等同对待,忽视了查询之间的差异,影响了排序模型的性能.对查询之间的差异进行描述,并在训练过程中考虑这种差异,提出一种基于有监督学习的融合多个与查询相关排序子模型的方法.该方法为每一个查询及其相关文档建立一个子排序模型,并将子排序模型的输出进行向量化表示,将多个查询相关的排序模型转化为体现查询差异的特征数据,实现多排序模型的集成.以排序支持向量机为例,在查询级和样本级建立新的损失函数作为优化目标,并利用此损失函数调节不同查询产生损失之间的权重,提出多查询相关的排序支持向量机融合算法.在文档检索和网页检索中的实验结果表明,使用多查询相关的排序支持向量机融合算法可以取得比传统排序学习模型更好的性能.  相似文献   

9.
词间相关性在Web检索中的新应用   总被引:1,自引:2,他引:1  
首先分析了以往信息检索中利用词间相关性的局限性,针对Internet检索对象是Web页面,具有篇幅较小的特点犤2犦,提出“主题关键词集合”的概念,利用词间相关性,通过计算用户查询词集合与网页主题关键词集合之间的距离,对检索结果重新排序。  相似文献   

10.
针对传统网页排序算法Okapi BM25通常会出现网页与查询关键词领域无关的领域漂移现象,以及改进算法需要人工建立领域向量的问题,提出了一种基于BM25和Softmax回归分类模型的网页搜索排序算法。该方法首先对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示,之后通过少量的网页数据来训练Softmax回归分类模型,来预测测试网页数据的类别分数,并与BM25信息检索的分数结合在一起,得到最终的网页排序结果。实验结果显示该检索算法无须人工建立领域向量,即可达到很好的网页排序结果。  相似文献   

11.
字段关联的构建方法是Web数据逼真生成中的困难问题.提出一种基于MIC的字段优先关联的Web数据逼真生成算法.该算法与现有的方法完全不同:首先,提取真实Web日志数据集中相应字段间的MIC系数;然后,结合字段的重尾特性,采用SE分布对字段的重尾性进行建模;最后,建立字段关联模型,模拟出真实数据集中的字段间依赖性,从而逼真生成目标数据集.实验表明,生成的数据集能够保持合理的字段间的均衡性以及节点间的相似性.  相似文献   

12.
有很多不同的分块算法都可以对web网页进行分块.研究分块的1/1的是为了相关领域进一步研究的需要。例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存档等。首先给出Web页面分块问题定义和分类,并对几种典型的分块算法进行原理剖析,为进一步研究web页面分块问题提供一些有益的参考。  相似文献   

13.
面向垂直搜索引擎的主题提取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对HITS算法对所有链接分配相等权重导致产生主题漂移的问题,提出基于计算链接价值度及Web页面语义主题相似度对链接分配合理权重的HITS改进算法,突出链接重要度的差异。实验表明,该算法的主题相关度提高了13%~42%,且较好地避免了主题漂移问题,增强了采集信息的准确性,对垂直搜索引擎的研究有重要的理论和实际应用价值。  相似文献   

14.
文章在对多媒体邮件标准和多媒体邮件编码方法进行研究的基础上,分析了中文Web多媒体邮件中出现的乱码问题,提出了中文多媒体邮件编码解码算法。列出了利用该算法在实现中文Web多媒体系统的过程中会碰到的一些问题,并给出了相应的解决策略。  相似文献   

15.
基于潜在语义索引的Web信息预测采集过滤方法   总被引:6,自引:0,他引:6  
Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向.提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算的基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析、对未知网页的相关性预测来控制信息采集过程.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。  相似文献   

16.
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在CleanEval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法.  相似文献   

17.
针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布,然后应用K Means算法对Web服务进行聚类。通过与LDA、TF IDF等方法进行对比发现,该方法在聚类纯度、熵和F Measure指标上均具有更好的效果。实验表明,该方法能够有效解决因Web服务描述所具有的短文本性质而导致的数据稀疏性问题,可显著提高服务聚类效果。  相似文献   

18.
条件随机场模型是目前处理We b对象属性标注问题的最佳统计模型。为解决条件随机场模型不能充分利用We b对象和属性标签之间的特征关系这一问题,提出了一种增强约束条件随机场模型。借鉴最大间隔的思想,在原有条件随机场模型中增加约束条件和增强因子以提高模型标注正确率。使用最大似然参数估计方法估计模型特征函数的权重参数,并用Viterbi算法进行预测。在数据集中引入验证集的概念,以获得最优增强因子。实验结果表明,该模型有效地提高了We b对象属性标注正确率。  相似文献   

19.
运行在服务器集群的软件系统需要Web日志的大规模数据集以满足性能测试的需求,但现有仿真生成算法因模型单一而无法满足要求。针对此问题,提出一种基于alpha稳态过程的多分形Web日志的仿真生成算法。首先,在长相关尺度(LRD)下采用alpha稳态过程来描述Web日志的自相似性;其次,在短相关尺度(RSD)下采用二项式b模型描述Web日志的多重分形性;最后,将长相关模型和短相关模型融合于改进的ON/OFF框架中。与单一的模型相比,新算法的参数物理意义明确,具有良好的自相似性和多分形性。实验结果表明,该算法能够较准确地模拟真实Web日志,可以有效地应用于Web日志大规模数据集的仿真生成。  相似文献   

20.
ActiveXML(简记为AXML)文档在XML文档中引入嵌入式Web服务,通过调用这些服务,来获取相应的内涵信息,为AXML文档物化过程。研究了AXML文档物化的终止性检验问题,提出了多项式时间的检验算法,该算法通过构造AXML模式依赖图,检验其无环性来判定AXML文档物化终止性问题,证明了算法的正确性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号