首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
在文本检索过程中,排序算法一定程度上影响到搜索引擎的质量。论文首先分析了Lucene组织结构,包括建立索引,检索索引文件以及结果集排序的工作过程和原理,着重剖析了Lucene基于向量模型的排序算法,并在原有排序算法基础上,采用基于关键词加权方式改进了全文检索的排序结果。实验结果证明,改进后的排序算法提高了系统的结果精确度,满足了项目的实际需求。  相似文献   

2.
在文本检索过程中,排序算法一定程度上影响到搜索引擎的质量。论文首先分析了 Lucene 组织结构, 包括建立索引,检索索引文件以及结果集排序的工作过程和原理,着重剖析了Lucene基于向量模型的排序算法, 并在原有排序算法基础上,采用基于关键词加权方式改进了全文检索的排序结果。实验结果证明,改进后的排序 算法提高了系统的结果精确度,满足了项目的实际需求。  相似文献   

3.
针对某一主题或学科的垂直搜索引擎是搜索引擎的延伸和细分,面向特定用户提供垂直搜索。网页排序算法是搜索引擎好坏的关键,搜索引擎网页排序算法的目的是从海量搜索结果中将主题相关和权威的网页排在前列,帮助用户查找所需的资源。 Nutch搜索引擎只实现了一个基本的综合排序模型,为了使Nutch更好地满足专业用户的需求,该文设计一个综合考虑主题相关性和网页权威性的综合排序模型,将主题相关度因子和改进后的PageRank算法因子融入到Nutch网页评分计算公式中。实验表明,改进的排序算法可以提高信息的查准率,具有明显的主题倾向性,在实际应用中发挥作用。  相似文献   

4.
为解决现有语义模糊可搜索加密方案无法取得排序可验证的问题,提出一种支持语义模糊搜索并能对搜索结果的排序进行验证的方案。首先引入相关度分数和域加权得分,构造精确度更高的倒排索引结构。通过非线性保序加密,云服务器可以对搜索结果进行高效排序,减少了用户的计算开销和网络资源浪费。接着基于WordNet词典集对查询关键词进行语义拓展。在构造出语义拓展树后,只选取最相关的语义拓展词进行查询。通过引入语义相似度,设计双因子排序算法对搜索结果进行精确排序。然后为创建验证信息,将关键词集合插入布隆过滤器中,并计算布隆过滤器、安全索引、密文文档的消息认证码。在搜索阶段,通过布隆过滤器可以验证索引中是否存在查询关键词,并使用消息认证码对索引、文档的完整性和正确性进行验证。通过引入索引树结构进一步提高方案的搜索效率。最后,将本方案与相关方案在功能、存储开销、搜索开销等方面进行比较,并对创建索引、创建验证信息、语义拓展、加密查询、查询、验证等方面的开销进行仿真实验。方案对比分析显示本方案在语义搜索、排序、验证等功能上具有优势。实验结果表明,本方案不仅实现了语义模糊搜索与结果排序,而且实现了排序结果可验证功能。  相似文献   

5.
将潜在语义分析应用于电子商务系统的供求信息匹配中,解决了传统模型中同义和多义现象对匹配精度有很大负面影响的问题;同时通过引入信息熵,改进了潜在语义分析的权重计算,提出了基于潜在语义分析的、结合了规则提取和相关反馈的供求信息自动匹配算法,并给出了配套的供求信息规则库的设计方法.实验结果显示,该算法具有很好的匹配精度,性能明显优于基于空间向量模型的供求信息匹配方法.  相似文献   

6.
通过研究作业排序问题的特点,引入冲突指派集的概念,提出了基于冲突指派集的深度优先搜索方法,缩小了搜索范围,提高了搜索效率.  相似文献   

7.
新浪微博话题流行度预测技术研究   总被引:1,自引:0,他引:1       下载免费PDF全文
微博作为一种新的在线社会网形式,逐渐成为人们获取和共享信息的重要平台。以我国最大的微博网站——新浪微博为对象,重点研究了微博话题的流行度预测问题。收集了大约40G的微博话题信息作为研究数据集,从中提取出与话题流行度相关的微博用户属性和话题内容属性,在对这些属性相关性分析的基础上,提出了一种兼顾用户属性和内容属性的话题流行度定量描述方法。文章对影响话题流行度的各属性进行了详细的主成分分析,总结出4种属性作为话题流行度预测的依据,并建立了流行度的线性预测模型。该模型能较好地预测话题流行度,模型指标R2达到0.89。  相似文献   

8.
提出了一种基于潜在语义分析(LSA)的相似文本匹配算法,并将其应用于自动评卷系统中.首先,在充分考虑词项之间相关性的基础上,在低维空间中表示学生答案文本与标准答案文本,然后利用奇异值分解方法模型对其进行了改进;其次,利用LSA技术,以学生答案文本与标准答案文本之间的余弦相似度作为相似性准则,根据相似度值确定该题的得分.实验结果表明,该算法充分考虑了文本语义信息,评分效果较好,是实现基于语义评卷系统的有益探索.  相似文献   

9.
近年来,微博热点话题发现已经成为当前网络舆情分析研究的热点.本文针对微博信息的碎片化、口语化等短文本特点,为解决向量空间模型(VSM)文本表示方法存在高维度、稀疏,及同义多义等问题,采用潜在语义分析法对微博信息进行建模,再通过贝叶斯分类算法实现话题发现.并采用J2EE开发包及Eclipse集成开发环境,结合Hibernate,Lucene等技术实现了微博热点话题发现系统,实验表明这种方法是有效的.  相似文献   

10.
目前P2P网络中的资源发现已经成为一个重要的研究课题.对P2P网络常见的几种搜索方法进行了介绍,包括非结构性的搜索方法和结构性的搜索方法,对这些方法的负载平衡、路由策略等进行了讨论,分析了P2P网络的体系结构及其搜索策略,以及P2P网络信息搜索的关键技术.  相似文献   

11.
针对企业网站的搜索引擎优化策略   总被引:3,自引:0,他引:3  
在互联网迅速发展的今天,互联网对企业的帮助,很大程度是靠搜索引擎来实现的.针对企业网站的搜索引擎优化主要是通过对企业网站结构、网页文字和站点问的链接等进行合理优化布局,提升用户体验,提高其搜索引擎排名,从而提高网站访问量,最终提升企业的宣传能力和销售能力.  相似文献   

12.
针对各检索词在整个查询中的权重不同和由检索词组合顺序不同而导致的暗含语义差异的问题,利用正排索引和倒排索引的结构特点,在基于倒排索引和向量空间检索模型的基础上加入相应的预处理算法,提出了查询步进和文档步进的概念,并分析了由此对检索带来的影响,给出了与检索词排列顺序相关的全文检索方法.  相似文献   

13.
哈希表查找作为一种快速的数据查询算法被广泛应用。为了更好地查找和解决哈希冲突,在构建哈希表时常选用链地址法来解决冲突。由于在查找哈希表时需要遍历链表,大大降低了查找效率。该文在结合链地址法和二分查找的基础上,提出了一种提高哈希表查找效率的改进方法。实验结果表明,该方法降低了冲突时执行查询的查找长度,从而降低了查询所需的时间。  相似文献   

14.
基于贝叶斯分类的邮件过滤方法及模型研究   总被引:5,自引:1,他引:5  
垃圾邮件日益泛滥,给用户带来了极大的不便和危害.并对网络安全构成威胁.传统邮件过滤方法单一,过滤精度不高,已不能很好地满足需求.结合规则过滤技术,分析了基于文本内容的贝叶斯分类器实现的关键技术与方法,并给出核心过滤算法在邮件分类中的实现具体方法及过程,进而完成垃圾邮件的判别.为减少邮件的误判对用户造成的损害及垃圾邮件漏判造成的影响,提出相应的改进措施,使用最小风险贝叶斯决策减小误判率,对分类系统经训练部分进行自适应调整,最后给出基于规则与内容的双重防范机制的邮件过滤模型及基于该框架的邮件判别流程.  相似文献   

15.
针对Web信息检索的特点,通过分析传统向量空间模型在Web检索中存在的若干问题,对传统向量空间模型进行改进,并提出结构化向量空间模型,其基本思想是将Web文档表达为具有一定逻辑结构的向量,即结构化向量组.每个结构化向量组由若干子向量构成,每个子向量对应Web文档中相对应独立的文本段.理论分析和实验证明,该方法能提高向量空间模型在信息检索精度和召回率方面的性能.  相似文献   

16.
提出了一种数控编程空间列表曲线的矢量法-空间三次参数样条曲线法,介绍了该方法的基本导了空间三次参数样条曲线的数学模型的矢量表达式,并给出 控加工的实例。  相似文献   

17.
在分析主观题自动批改技术的现状和困难的基础上,提出了一种利用中文信息处理中的句子相似度的主观题自动批改算法,并对两种不同的相似度计算方法进行了对比研究,试验说明该算法取得了较好的效果.  相似文献   

18.
VSM在中文文本聚类中的应用及实证分析   总被引:7,自引:0,他引:7  
文本聚类Web文本挖掘的一个重要分支,而文本表示方法是文本聚类的基础。重点讨论了文本表示方法中最常用到的向量空间模型,分析了其优势和不足,并基于一个文本处理实验,对VSM模型从可实现角度给出改进建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号