首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 186 毫秒
1.
基于结构与文本关键词相关度的XML网页分类研究   总被引:9,自引:0,他引:9  
针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法.算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类.实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题.  相似文献   

2.
针对传统方法存在的推荐结果召回率和准确率较低的问题,提出了基于SQL的教育资源数据库索引自动推荐模型。构建自动推荐模型体系结构,利用索引器抓取互联网上所有网页,创建正向索引和反向索引。利用控制器搜索网页,控制所有网页都能被搜索。通过用户接口限制查询条件。建立基于SQL教育资源数据索引库,对文档查询与处理,结合基于SQL查询语言结构,构建推荐模型。由实验结果可知,该模型推荐准确率高,召回率高,可为用户提供精准的教育资源。  相似文献   

3.
全文检索系统的数据预处理研究   总被引:1,自引:0,他引:1  
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

4.
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库.因此网页索引库建立的好坏直接影响最后的查询结果的准确性和用户的查询速度.本文提出了一种建立倒排索引的算法并进行了分析和研究.  相似文献   

5.
论文提出了一种基于向量空间模型的用户个性化需求建模方法。对关键词权重算法作出改进,将网页分为四类逻辑段,通过计算关键词在各类逻辑段中的权重而加权得到综合权重。采用基于内容的构建原则和反馈原则,将用户模型构建分为训练阶段和自适应学习阶段。在训练阶段由用户给出的样本文档与关键词采用类重心分类算法训练得到初始用户模型;在自适应学习阶段,提出了基于 Rocchio 算法的周期性自适应学习机制,根据用户对过滤结果的评价,调整用户模型,以提高对用户个性化需求的动态追踪能力。开发了个性化信息过滤原型系统。以中国服装网为实验数据源,对比百度搜索引擎,测试系统的信息过滤性能。实验结果表明,系统索引更新及时,响应速度快,返回的信息更精确,更合理,更加符合用户的实际需求。  相似文献   

6.
该文针对目前通用搜索引擎存在的不足,提出在建立普通倒排索引的基础上,再建立一个记录用户手动标注信息的综合倒排索引,并结合渠道奖励词频算法和文档关注度算法动态更新综合倒排索引,最后在Lucene环境下实现了一个体现用户个性的搜索引擎。  相似文献   

7.
在电子商务环境中,实现个性化服务,理解用户兴趣就成了提供个性化服务的关键任务。因此,建立用户兴趣模型和构建推荐库就成为个性化推荐系统的实现基础。论文通过网络爬虫获取到相关的网页,进行预处理后,采用SVM(支持向量机)分类文档建立推荐库。通过对用户访问路径、搜索关键字等分析,获取用户兴趣,采用向量空间模型表示用户兴趣,利用机器学习构建用户兴趣模型。在推荐库和用户兴趣模型的基础上,加入推荐引擎,实现了基于电子商务的个性化推荐系统。  相似文献   

8.
韩升  刘广志 《微机发展》2006,16(3):208-210
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

9.
个性化检索服务已成为提高信息检索查准率的有效途径。论文针对用户兴趣模型的构建,在传统TFIDF算法的基础上,提出了一种基于文档结构和网页兴趣权重的TFIDF算法,并给出了用户兴趣模型的更新算法。实例分析表明,基于该文算法的用户兴趣模型能够改善用户兴趣的捕获情况。  相似文献   

10.
搜索引擎索引网页集合选取方法研究   总被引:2,自引:0,他引:2  
随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号