首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对分布式信息检索时不同信息集对最终检索结果贡献度有差异的现象,提出基于历史点击数据的集合选择方法(PCTD-CS).该方法利用点击数据估计各集合与历史查询的相关度.采用基于关键词和基于检索结果相结合的方法估计查询间的相似度.利用历史查询中的相似查询估计新查询与各集合的相关度,选择相关度最高的M个集合进行检索,给出要获取前k个文档的情况下各集合应当返回的文档数.采用召回率Rm、前n个检索结果的准确率P@n及平均准确率MAP对集合选择方法的性能进行验证.实验结果表明,采用PCTD-CS方法提高了检索结果的召回率和准确率,能够更准确地定位到包含相关文档多的集合.  相似文献   

2.
为解决现有语义模糊可搜索加密方案无法取得排序可验证的问题,提出一种支持语义模糊搜索并能对搜索结果的排序进行验证的方案。首先引入相关度分数和域加权得分,构造精确度更高的倒排索引结构。通过非线性保序加密,云服务器可以对搜索结果进行高效排序,减少了用户的计算开销和网络资源浪费。接着基于WordNet词典集对查询关键词进行语义拓展。在构造出语义拓展树后,只选取最相关的语义拓展词进行查询。通过引入语义相似度,设计双因子排序算法对搜索结果进行精确排序。然后为创建验证信息,将关键词集合插入布隆过滤器中,并计算布隆过滤器、安全索引、密文文档的消息认证码。在搜索阶段,通过布隆过滤器可以验证索引中是否存在查询关键词,并使用消息认证码对索引、文档的完整性和正确性进行验证。通过引入索引树结构进一步提高方案的搜索效率。最后,将本方案与相关方案在功能、存储开销、搜索开销等方面进行比较,并对创建索引、创建验证信息、语义拓展、加密查询、查询、验证等方面的开销进行仿真实验。方案对比分析显示本方案在语义搜索、排序、验证等功能上具有优势。实验结果表明,本方案不仅实现了语义模糊搜索与结果排序,而且实现了排序结果可验证功能。  相似文献   

3.
摘要:提出了一种对象级搜索中领域无关的对象排序模型.给定对象集合以及对象间的关系,根据用户输入的对象查询,该模型按照对象与查询的相关度输出一个对象的排序表.采用一个多平面的图表示对象级搜索的空间,并基于该图分别提出了对象流行度评估算法、根据查询计算相关度的算法,以及合并多个对象查询的算法.针对ACM数据集上的实验结果表明该算法是有效的,在论文推荐与合并多对象查询方面,均取得了比PaperRank更好的结果.  相似文献   

4.
信息检索是从文档集合或互联网中找出用户所需信息的过程,细化为召回和排序两个阶段。针对排序阶段中相关文档的重排序,提出一种称为融合排序学习与预训练模型的检索排序方法(Pair-Wise FineTuned Bidirectional Encoder Representation from Transformers,PWFTBERT)。通过对候选论文数据集使用BM25等算法召回出与查询相关的小范围文档后,可应用PWFT-BERT对召回得到的文档集合进行排序。为构造pair-wise形式的训练数据,提出一种伪负例生成算法生成训练数据,并使用排序学习方法微调预训练模型使其适配排序任务。对比IT-IDF和BM25基线方法,PWFT-BERT在WSDM-DiggSci 2020数据集上的检索结果提升了240%和74%,证明了所提方法的有效性。  相似文献   

5.
元搜索引擎结果合成算法研究   总被引:1,自引:0,他引:1  
提出了一种基于文本/位置分析和群决策的查询结果合成算法.在充分考虑搜索结果文本信息的基础之上,提出查询匹配度的概念,并对搜索结果的标题和短文摘进行相关度分析,通过将文本分析与规范化的搜索结果排序值相结合来计算文档的相关分值.在估计非相关文档的相关分值时,针对不同假设条件分别进行了讨论,并提出改进的影子文档算法.然后,采用基于群决策的合成方法对相关分值进行合并,实现搜索结果的一致性排序.实验结果表明采用该算法,搜索结果的相关性明显优于Round-robin、CombSum和CombMNZ 3种合成算法.  相似文献   

6.
大数据时代的到来,数据格式呈现多样化,对Web数据的处理不仅仅局限在网页链接上,还需要处理无链接结构的文档。如何从海量的文档中获取所需的信息是搜索引擎亟待解决的问题,目前传统的根据索引分析并不能满足这一需求。为了从数百万个结果中选取价值最高的文档子集,提出了新的DocumentRank算法,通过构建衡量文档重要性矩阵来计算查询相关度得分对文档进行排序。最后通过对互联网文档数据集搜索的实验说明,DocumentRank 算法相比Lucene索引技术提高了文档检索的精确度和综合相关度。  相似文献   

7.
针对元搜索引擎中返回大量重复冗余信息导致结果显示代理负担加大、系统查准率降低的缺陷,结合Agent技术建立基于多Agent的元搜索引擎系统模型,从成员Agent的爬行能力值、检索文档与查询主题的相关度和查询响应时间三个方面综合衡量成员搜索引擎对于查询的重要度,并按降序排序,优先选择重要度最佳的若干成员搜索引擎进行智能调度和智能结果合成。实验结果表明,与传统元搜索引擎相比,这种基于奖励机制的智能元搜索引擎提高了检索效率和查询性能。  相似文献   

8.
对海量的、异构XML文档进行检索时,现有的查询语言如XPath,XQuery已无法胜任,需要将数据挖掘和信息检索两方面相结合进行近似查询.提出一种新的XML文档近似查询方法,首先根据提出的层次路径模型提取文档结构特征,进行向量空间映射.然后通过奇异值分解进行矩阵变换,在去除相关冗余的同时有效地降低了空间维数.目标文档的匹配在变换后的检索空间中进行,同时对返回的查询结果进行相似性排序.采用DBLP数据集进行测试,实验获得良好的查询及排序结果.  相似文献   

9.
为提高搜索引擎的查准率,提出了一种基于群用户兴趣模型的加权全局相关度查询排序算法。算法综合考虑了用户搜索意图与搜索结果的全局相关度,改进了搜索引擎的排序结果,为用户提供了准确的搜索服务。实验结果表明,与用户意图相关的搜索结果能够排在最前面,搜索准确率明显提高。  相似文献   

10.
为了解决微博检索面临的"用户查询"和"相关文档"都是极端短文本的情况,及由此造成的检索性能欠佳的难题,研究并实现了一种微博检索结果的二次重排算法,基于微博内容相似关系构建关系图模型,利用PageRank算法对微博检索结果进行二次排序.比较了基于余弦相似度、戴斯系数、单向戴斯系数等文本内容相似度计算方法.实验结果表明:二次排序算法能够有效提升微博检索性能,同时图模型迭代性能与相关主题比例存在依存关系.有鉴于此,讨论通过决策树重排算法去除非相关主题对微博排序的影响.  相似文献   

11.
基于词频统计的个性化信息过滤技术   总被引:8,自引:0,他引:8  
对Internet信息进行过滤,筛选出与用户兴趣最相符的文档,是智能搜索引擎要解决的一个重要问题。本文在介绍搜索引擎其本原理的基础上,提出了一种文档学习和用户个性词典构建的实现方法,其中包括内码转换、分词、摘词处理、用户个性词典的构建及词条权值调整等环节。然后提出了一种基于词频统计的个性化文档过滤算法,该算法对传统的向量空间模型法做了改进,使之能够更好地计算文档与用户个性词典之间的相关度,根据用户的兴趣爱好对进行相关度的过滤、排序,并给出了实验数据。实验结果表明该方法较好地解决了智能搜索引擎中Internet信息过滤、排序的问题。  相似文献   

12.
数据库模糊查询会产生很多查询结果,因此有必要将查询结果按照用户需求进行排序。首先给出了模糊查询定义,然后根据模糊集理论提出了基于隶属度的模糊查询结果排序方法,该方法综合考虑了查询指定的属性权重和查询结果对模糊查询的隶属度。实验及分析证明,提出的模糊查询结果排序算法能够较好地满足用户需求,具有较高的排序质量。  相似文献   

13.
针对以集合点为发起者的双色反向k最近邻(BRkNN)查询效率问题,提出一种联合查询方法.BRkNN查询查找的是以查询点为k最近邻的点集,双色反向k最近邻联合(CBRkNN)查询查找的是以查询集合中某一设施集合为k最近邻的点集.该方法通过构造查询集合的影响区域来处理CBRkNN查询问题,任何一个物体落入影响区域就是查询结果,反之则不属于查询结果.算法通过画出用户感兴趣设施集合和用户不感兴趣设施集合之间的所有垂直平分线,计算集合中每个设施的优势支配区域,找出被优势支配区域覆盖个数小于k次的凸多边形区域以构造影响区域.在此基础上算法对影响区域进行点包含性查询得到最终结果.通过实验验证了算法在不同的用户规模、用户感兴趣/不感兴趣设施规模和不同的k值条件下都具有较小的时间消耗,从而说明影响区域的使用可以提高查询方法的有效性.  相似文献   

14.
针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同  相似文献   

15.
基于Rough集联系度的决策表简化方法   总被引:2,自引:0,他引:2  
提出了集合型Rough集(粗集)联系度的概念以及利用Rough集联系度对决策表进行条件属性简化和属性冗余值简化的计算步骤,通过算例说明方法比较的Rough集理论中使用范畴的相地简化方法更简单。  相似文献   

16.
提出基于数据仓库多维模型维度及维度属性特征的联机分析处理(OLAP)关键词查询方法,将获得广泛应用的关键词查询方法和OLAP结合,可大大降低OLAP应用的门槛.该方法用列结构创建数据仓库维度全文索引,根据用户输入的查询获得按关键词划分的命中集,对命中集进行连接并排序后将产生的候选结果提供给用户.该方法基于对数据仓库用户更加关注概要性数据的特性,以及多维模型维度及其属性的非均衡型特征的分析,采用过滤不相关维度属性及重复维度列值的方法,并在传统的全文检索排序算法上增加维度层次权重系数.在MS SQL Server提供的FoodMart和AdventureWorks示例数据集上的实验对上述因素的影响做出了比较和分析,结果表明,首选候选结果命中率均优于基于关键词的分析处理方法.  相似文献   

17.
为了在浩如烟海的Web信息中更快地找到用户关心的信息,提出了一种主题爬行方法——MatchLink,它通过文档向量模型来评估网页链接的主题相关度,通过朴素贝叶斯算法和多层分类的方法计算链接所在网页的主题相关度,并根据这2个相关度优先下载主题相关的页面,实验表明其结果好于BestFirst和BreadthFirst。  相似文献   

18.
针对产品质量屋中用户需求排序的问题,提出模糊需求软集合与隶属度云模型的耦合方法,从模糊性与随机性综合考虑用户需求排序的问题,利用需求模糊隶属度构建模糊需求软集合,消除质量屋在信息传递中的模糊性与不确定性问题,通过逆向隶属度云发生器将定量信息转化为定性概念,基于超熵算子评价法,确定需求重要度最终排序,以液压四足机器人为例,验证了方法的实用性与可行性.  相似文献   

19.
刘黎志    张威   《武汉工程大学学报》2017,39(5):508-513
使用MapReduce框架对规范的一对多关系实体进行连接操作时,一方实体的各个属性会在连接的结果中产生大量冗余. 通过对二次排序算法进行优化,重新定义Map阶段的分区过程、Shuffle阶段的排序及分组过程,使得Map阶段的输出为包含一方实体属性值和多方实体排序值的组合键及包含多方实体属性值的集合. Reduce阶段将组合键进行分解,提取一方实体的主码作为HBase表的行健,并将组合键中一方实体的各个属性值及多方实体属性值集合分别写入HBase表中对应的列,从而既实现了连接的语义,又消除了冗余. 实验证明,优化后的算法可以消除一方实体属性值在连接结果中的冗余,提高了对连接结果的查询效率.  相似文献   

20.
为解决目前网络信息采集中信息主题单一与垃圾信息过多的问题,讨论了一种半人工监督的启发式采集系统.用户向系统提交同一个主题的一组关键词后,系统自动合并多个搜索引擎返回的结果,从而构成一个有序的文档集合.对这个集合利用后缀树算法进行聚类,人工对聚类的结果进行有效与垃圾状态标注并生成训练集构造分类器.当用户提交该主题更多的关键词时,系统可以从各成员搜索返回的结果中自动识别并采集有效数据而过滤垃圾信息.实验结果显示,系统对定主题数据的平均有效信息识别率达到92%以上.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号