首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
在文本检索过程中,排序算法一定程度上影响到搜索引擎的质量。论文首先分析了 Lucene 组织结构, 包括建立索引,检索索引文件以及结果集排序的工作过程和原理,着重剖析了Lucene基于向量模型的排序算法, 并在原有排序算法基础上,采用基于关键词加权方式改进了全文检索的排序结果。实验结果证明,改进后的排序 算法提高了系统的结果精确度,满足了项目的实际需求。  相似文献   

2.
在文本检索过程中,排序算法一定程度上影响到搜索引擎的质量。论文首先分析了Lucene组织结构,包括建立索引,检索索引文件以及结果集排序的工作过程和原理,着重剖析了Lucene基于向量模型的排序算法,并在原有排序算法基础上,采用基于关键词加权方式改进了全文检索的排序结果。实验结果证明,改进后的排序算法提高了系统的结果精确度,满足了项目的实际需求。  相似文献   

3.
数据库模糊查询会产生很多查询结果,因此有必要将查询结果按照用户需求进行排序。首先给出了模糊查询定义,然后根据模糊集理论提出了基于隶属度的模糊查询结果排序方法,该方法综合考虑了查询指定的属性权重和查询结果对模糊查询的隶属度。实验及分析证明,提出的模糊查询结果排序算法能够较好地满足用户需求,具有较高的排序质量。  相似文献   

4.
用于分布式语义查询的语义逼近方法   总被引:2,自引:0,他引:2  
传统的基于关键词的信息查询方法已经不能满足用户的需要. 为此,提出基于语义逼近的信
息查询方法,探讨了语义替换规则和基于逼近度的查询结果排序策略. 最后基于多代理技术
实现了一个分布式语义查询系统,能执行跨多个本体的语义查询任务.   相似文献   

5.
为解决现有语义模糊可搜索加密方案无法取得排序可验证的问题,提出一种支持语义模糊搜索并能对搜索结果的排序进行验证的方案。首先引入相关度分数和域加权得分,构造精确度更高的倒排索引结构。通过非线性保序加密,云服务器可以对搜索结果进行高效排序,减少了用户的计算开销和网络资源浪费。接着基于WordNet词典集对查询关键词进行语义拓展。在构造出语义拓展树后,只选取最相关的语义拓展词进行查询。通过引入语义相似度,设计双因子排序算法对搜索结果进行精确排序。然后为创建验证信息,将关键词集合插入布隆过滤器中,并计算布隆过滤器、安全索引、密文文档的消息认证码。在搜索阶段,通过布隆过滤器可以验证索引中是否存在查询关键词,并使用消息认证码对索引、文档的完整性和正确性进行验证。通过引入索引树结构进一步提高方案的搜索效率。最后,将本方案与相关方案在功能、存储开销、搜索开销等方面进行比较,并对创建索引、创建验证信息、语义拓展、加密查询、查询、验证等方面的开销进行仿真实验。方案对比分析显示本方案在语义搜索、排序、验证等功能上具有优势。实验结果表明,本方案不仅实现了语义模糊搜索与结果排序,而且实现了排序结果可验证功能。  相似文献   

6.
本文讨论了概率模型的新闻资料全文检索及排序算法。作者提出了全文检索最佳排序原则。根据Neyman-Pearson决策规则导出了最优检索规则,并据此提出了BI概率模型和相应的最优查询。根据用户对被检索文献作出的相关判断,对构造BI模型的最优查询所需参数进行了估计。最后,提出了基于概率模型的全文检索排序算法。  相似文献   

7.
提出基于数据仓库多维模型维度及维度属性特征的联机分析处理(OLAP)关键词查询方法,将获得广泛应用的关键词查询方法和OLAP结合,可大大降低OLAP应用的门槛.该方法用列结构创建数据仓库维度全文索引,根据用户输入的查询获得按关键词划分的命中集,对命中集进行连接并排序后将产生的候选结果提供给用户.该方法基于对数据仓库用户更加关注概要性数据的特性,以及多维模型维度及其属性的非均衡型特征的分析,采用过滤不相关维度属性及重复维度列值的方法,并在传统的全文检索排序算法上增加维度层次权重系数.在MS SQL Server提供的FoodMart和AdventureWorks示例数据集上的实验对上述因素的影响做出了比较和分析,结果表明,首选候选结果命中率均优于基于关键词的分析处理方法.  相似文献   

8.
提出了一种应用于垂直 贝尔实验室分层空时码(V BLAST)系统的新的排序检测算法. 该算法利用新的排序方法和施密特正交化分解算法进行信号的检测,降低了检测算法的复杂度,并将排序与数据检测分离,提高了算法应用的灵活性. 分析结果表明,该算法运算复杂度仅为传统的排序迫零干扰删除算法(ZF SIC)的1/3~3/4,且理论与仿真结果证明新方法性能与传统的ZF SIC误码率(BER)性能相同. 因此,新算法有利于硬件系统的集成实现,达到了降低硬件实现难度和成本的目的.  相似文献   

9.
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。  相似文献   

10.
目前关系数据库关键词查询技术主要利用关键词的语法匹配,而没有利用数据之间的语义关系进行匹配,导致查询效果往往都不太令人满意。为了改善查询效果,结合本体概念,提出了基于本体的关系数据库关键词查询的语义查询扩展方法,把用户提交的查询关键词扩展为基于本体的语义关键词。实例分析表明,扩展后的语义关键词尽可能符合用户的真实意愿。  相似文献   

11.
为提高搜索引擎的查准率,提出了一种基于群用户兴趣模型的加权全局相关度查询排序算法。算法综合考虑了用户搜索意图与搜索结果的全局相关度,改进了搜索引擎的排序结果,为用户提供了准确的搜索服务。实验结果表明,与用户意图相关的搜索结果能够排在最前面,搜索准确率明显提高。  相似文献   

12.
在传统图上关键字检索问题研究的基础上,基于图形处理器(GPU)设计新的关键字检索算法. 基于Steiner tree语义定义关键字检索问题,针对该问题结合传统多源最短路径算法在CPU上设计基本算法,由于CPU架构特性,该算法无法直接移植到GPU上. 提出GPU上的基本检索算法,分析它相对于CPU版本的优势和仍然存在的不足. 为了提升算法查询速度,反思GPU上基本检索算法的不足之处,提出基于索引的优化技术,利用单源最短路径算法的松弛更新思想、关键字独立性和内部整体性,设计GPU上的高效关键字检索算法. 扩展该算法思想,对r-cliques关键字检索问题提出GPU上的优化思路. 通过分析算法复杂度并在真实数据集上进行实验,证明该GPU算法的正确性和有效性,并证明算法在较大规模图数据上仍有较强的计算性能.  相似文献   

13.
为了实现关系数据库上自由态的关键词查询,通过创建索引表并运用其存储的知识为每个属性赋予不同的权值来改进信息检索中传统的排序方法.对每个查询用索引表和改进的排序方法来获得Top-N答案.用实际数据集进行了实验,实验结果表明此方法在查询时间和准确性上是有效的.  相似文献   

14.
软件开发者在开发项目过程中往往需要引用大量由其他开发者开发的基础软件包。为获取除基础软件包开发文档外的使用方式,软件开发者需将代码关键词输入到代码搜索引擎搜索代码片段。文章提出一种基于向量表示的代码搜索方法,该方法收集Github和Stack Overflow数据集中的代码片段训练一个扩充代码词的skip-gram模型,并使用这个模型扩充从搜索文本中提取的与代码词关联的搜索关键词,得到搜索关键词上下文代码片段向量组,将搜索关键词上下文代码片段向量组和待匹配代码片段向量组编码后,计算余弦相似度并排序生成搜索结果。为验证算法的有效性,分别在Github数据集和Stack Overflow上验证。在Stack Overflow数据集上测试表明:58%的搜索能在第1个搜索结果找到正确答案;65%的搜索能在前5个答案中找到正确答案;72%的搜索能在前10个答案中找到正确答案,并在召回率和F值也有一定程度的提升。在Github数据集上测试表明:59%的搜索能在第1个搜索结果找到正确答案;67%的搜索能在前5个答案中找到正确答案;74%的搜索能在前10个答案中找到正确答案,并在召回率和F值也有一定程度的提升。针对大量数据的代码检索,本算法效果优于典型方法的搜索结果。  相似文献   

15.
摘要:提出了一种对象级搜索中领域无关的对象排序模型.给定对象集合以及对象间的关系,根据用户输入的对象查询,该模型按照对象与查询的相关度输出一个对象的排序表.采用一个多平面的图表示对象级搜索的空间,并基于该图分别提出了对象流行度评估算法、根据查询计算相关度的算法,以及合并多个对象查询的算法.针对ACM数据集上的实验结果表明该算法是有效的,在论文推荐与合并多对象查询方面,均取得了比PaperRank更好的结果.  相似文献   

16.
对象级别关系数据库的检索研究一直以来都是相关研究领域关注的重点。随着互联网搜索引擎的发展进步,用户可以通过简单的关键词找到想要的资料,然而检索关系数据库时,用户需要掌握一定的检索语言与知识,这大大增加了用户检索的难度,不利于关系数据库的使用推广,因此使关系数据库支持关键词检索成为众多研究学者的工作目标。文中在此背景下对对象级别关系数据库检索结果相关性排序算法进行了研究探讨。  相似文献   

17.
如何设计有效的相关性排序函数是信息检索研究的一个核心问题,因为排序函数直接影响着搜索结果的质量。排序函数的好坏一般由信息检索评价方法进行评估,对其进行优化的主要困难是这些方法都依赖于结果文档的排序位置,因此对于查询的结果返回列表中相关文档的位置的研究是十分重要的。通过探索相关文档和不相关文档之间的偏序关系构造新的输入样本;该样本是由一个相关文档和一组不相关文档所构成的,它能够更加有效的区分文档的相关性;基于该输入样本,通过定义位置损失函数对排序结果进行优化。在公开数据集Letor30的上的实验结果显示该方法可以将多种排序评价方法的准确率平均提高2%,证明了所提出的方法的有效性。  相似文献   

18.
一种基于双重距离尺度的高维索引结构   总被引:1,自引:0,他引:1  
为了提高高维数据相似查询的效率,提出一种基于双重距离尺度(DDM)的新型高维索引结构.通过建模得到该DDM的四元组数据结构, 对于高维空间中的数据点,通过k平均聚类算法将数据点聚成若干类,分别计算每个点对应的始点和质心距离,得到基于加权的质心距离, 并将加权的质心距离作为每个数据点的索引键值,且用基于分片的B+树建立索引,得到了该索引的创建算法.高维空间的查询就转变成对一维空间的检索,并研究了数据点的维数、数据量和查询请求参数对查询性能的影响.结果表明, 该DDM能更有效地缩小搜索空间,减少距离计算的开销,特别适合海量高维数据的查询.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号