首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于SPI与VSM的Web访问控制与过滤系统的研究与设计   总被引:1,自引:0,他引:1  
对用户请求的Web文本信息进行实时控制与过滤是信息安全的一个重要研究分支.基于Winsock SPI技术实现了一个Web访问控制与过滤系统.系统利用VSM模型计算网页间的相似度,采用URL规则和Web页内容审计的混合策略进行过滤.系统既能过滤新Web页,又能自动维护URL规则库,经多次测试效果良好.  相似文献   

2.
基于Web的信息过滤机制   总被引:12,自引:0,他引:12  
信息过滤目的在于依据用户兴趣进行动态信息搜索以满足用户的需求。文章给出了基于Web的信息过滤机制。它根据用户信息需求,建立公共模板,利用搜索引擎获取信息源;然后利用文档与用户模板的匹配机制,将相关文档推送给用户。在文档结构分析和相关反馈的基础上,提出了特征抽取和权重分配算法;将布尔模型和向量空间模型相结合,提出了文档与用户模板匹配算法。  相似文献   

3.
目前搜索引擎返回的信息太多且难以根据用户的兴趣提供检索结果,而个性化推荐是一种旨在减轻用户在信息检索方面负担的有效方法.文中把内容过滤技术和文档聚类技术相结合,以改进的STC聚类方法组织搜索结果,主动推荐用户感兴趣的文档并将其中的Top-N对象预取到本地. WWW缓存中的Web文档代表了用户当前的兴趣,通过建立用户概率兴趣模型,在搜索结果STC聚类的基础上进行内容过滤.实验表明,基于搜索结果的Web预取模型具有较好的时间性能和较高的查准率.  相似文献   

4.
杨丹  申德荣  陈默 《计算机科学》2015,42(7):240-244
基于Web查询的地理位置、时间查询意图和用户偏好的个性化Web搜索可以改善Web搜索结果,更好地满足不同用户的信息需求。提出了GT-WSearch个性化Web搜索框架,它通过挖掘搜索结果、用户点击数据和对查询进行分析得到的用户概貌和查询概貌,来捕捉用户的地理-时间的意图和偏好,提高搜索质量。用户概貌表明了查询自身的地理-时间的特性。 GT-WSearch框架在排序函数中利用文档的地理位置、时间的相关度来进行个性化搜索。 最后将使用线性的相关度排序函数进行重新排序的搜索结果返回给用户。大量实验结果表明,所提出的个性化方法在提高Web搜索结果的质量中取得了明显的效果。  相似文献   

5.
基于用户查询意图识别的Web搜索优化模型   总被引:2,自引:1,他引:1  
杨艺  周元 《计算机科学》2012,39(1):264-267
在对用户查询意图进行分析分类的基础上,提出了一种Web搜索优化模型。该模型通过识别用户查询意图来查询意图特征词和内容主题词的双重约束,再结合用户查询行为获得查询目标,既保证了用户查询意图的准确匹配,又自动过滤和屏蔽了不相关信息。与相关工作对比,其重点在于准确获取用户查询意图,提高用户满意度。实验结果表明,该模型在实现信息搜索准确性和用户对查询结果满意度方面比传统搜索方法有明显改善。  相似文献   

6.
随着信息系统的升级和Web 2.0系统的广泛应用,现代化企业的内部信息正在呈爆炸性的增长,为提高海量信息检索的精确度,该文设计一个个性化搜索系统,该系统采用分类和聚类等传统信息过滤技术,提出基于角色的协作模型。实验结果表明,新的协作模型能更有效地挖掘企业用户的个性化需求,使搜索结果更为精确。  相似文献   

7.
针对传统的基于关键词的搜索与数据检索存在的弊端,本文提出基于本体的Web信息抽取框架。该框架首先获取Web页面,将其转换为格式良好的HTML文档,然后利用HTML解析器将该文档转化为DOM树,再根据XPath表达式获取用户感兴趣的数据块,由此生成抽取规则,最后通过OntPMatch算法实现数据的抽取,并以RDF数据格式储存信息。本文以棉花信息为研究对象加以实证研究,实现Web生物信息数据抽取原型系统,为方便用户发现有价值的Web生物信息资源提供一个有效的工具。  相似文献   

8.
孙琳  王忠民  李鑫 《计算机应用》2006,26(Z2):169-171
为了改进Web检索中用户信息获取体验,提出了一种有效的查询建议方法--LDART,该方法应用于Web search用户交互,提供良好的智能化的人机接口.该方法结合了目前基于文档和基于日志的研究方法从日志中抽取查询主题,从Web上获取相关文档集,使用对象过滤的方法生成事务,通过关联规则挖掘的方法抽取关系.将得到的相关主题规则应用于真实的搜索引擎并设计了评价模型,通过实验结果表明这种方法能够为用户提供高相关度的查询主题.  相似文献   

9.
基于用户搜索意图的Web网页动态泛化   总被引:3,自引:0,他引:3  
基于目前对用户搜索意图的分类,进一步分析了每种用户意图的信息需求,提出了基于用户搜索意图的Web网页动态泛化模型,为搜索的Web网页动态地建立文档片段、关键词、导航类型、文档格式之间的概念层次,通过网页内容、类型和格式的泛化为不同的访问意图提供进一步的搜索导航,从而返回与搜索意图更相关的结果.与相关工作对比,重点并非获取用户意图,也不是对用户意图分类,而是基于用户搜索意图的Web网页动态泛化模型的建立及Web网页泛化过程的实现.实验结果表明,该泛化模型不仅能够通过导航自动获取用户搜索意图,而且能够基于该意图提供相关搜索结果以及进一步的搜索导航.  相似文献   

10.
王大玲  于戈  鲍玉斌  张沫  沈洲 《软件学报》2010,21(1):1083-1097
基于目前对用户搜索意图的分类,进一步分析了每种用户意图的信息需求,提出了基于用户搜索意图的 Web 网页动态泛化模型,为搜索的Web 网页动态地建立文档片段、关键词、导航类型、文档格式之间的概念层次, 通过网页内容、类型和格式的泛化为不同的访问意图提供进一步的搜索导航,从而返回与搜索意图更相关的结果. 与相关工作对比,重点并非获取用户意图,也不是对用户意图分类,而是基于用户搜索意图的Web 网页动态泛化模型 的建立及Web 网页泛化过程的实现.实验结果表明,该泛化模型不仅能够通过导航自动获取用户搜索意图,而且能够 基于该意图提供相关搜索结果以及进一步的搜索导航.  相似文献   

11.
二次信息过滤是根据搜索引擎返回的网页,对过滤结果进行理解、分析并进一步过滤,以使结果优化。二次过滤中的样本分类处理中,通过对基于Bayesian算法的网页识别技术的研究,探讨了基于改进的Bayesian算法的网页识别技术,用于对二次过滤中的整篇文档进行进一步的分析以提高过滤效果。  相似文献   

12.
基于信息过滤后的Web内容挖掘   总被引:4,自引:0,他引:4  
Internet的迅速发展,使得worldwideweb已经成为一个巨大的、蕴含着具有潜在价值知识的分布式信息空间,为Web挖掘研究提供了丰富的资源的同时也提出了新的挑战。该文首先论述了Web内容挖掘技术的挖掘原理和所面对的困难,然后介绍了信息过滤技术的规则以及过程。最后提出了基于信息过滤的Web内容挖掘的系统方案,较好地解决了当前Web内容挖掘中准确度不高、冗余性大的缺陷。  相似文献   

13.
Web主题检索是信息检索领域一个将采集技术与过滤方法结合的新兴方向,也是信息处理领域的研究热点。针对现有主题检索系统在Web页面文本的主题相关性判断和Spider搜索策略方面存在的问题,引入两个性能优化方案,即利用信息抽取技术,提出了一种基于模式集的主题相关性判断方法来提高主题判断准确度;针对pagerank在主题检索中存在的不足,引入基于增强学习的页面评估算法,提出了Web环境优先的搜索策略。最后根据实验结果评估两个算法的性能。  相似文献   

14.
Web资源的多粒度语义标注及其应用技术研究   总被引:1,自引:0,他引:1  
当前的Web搜索引擎获得的搜索结果都是基于关键字标注的Web文档、页面或链接,不支持对文档内部信息的检索。为支持Wcb资源内部信息的检索,研究多粒度语义标注,即按树根结点、分支结点、叶子结点及资源信息元为粒度单位对Web资源进行组织管理,并在此基础上探讨基于本体的搜索技术。初步的分析和实验表明,这样可以提高从形式多样的海量Web资源中获取所需信息的效率。  相似文献   

15.
夏斌  徐彬 《电脑开发与应用》2007,20(5):16-17,20
针对目前搜索引擎返回候选信息过多从而使用户不能准确查找与主题有关结果的问题,提出了基于超链接信息的搜索引擎检索结果聚类方法,通过对网页的超链接锚文档和网页文档内容挖掘,最终将网页聚成不同的子类别。这种方法在依据网页内容进行聚类的同时,充分利用了Web结构和超链接信息,比传统的结构挖掘方法更能体现网站文档的内容特点,从而提高了聚类的准确性。  相似文献   

16.
许斌 《计算机工程》2006,32(20):33-34,8
在构建面向服务的Web应用时,往往需要按照领域进行Web服务查找。现有的UDDI的Web服务查找方式是通过tModel分类信息和关键字匹配来进行的,不便于按照领域进行查找。通过直接在互联网上搜索WSDL文件,并利用支持向量机来构建基于领域的WSDL文件分类器,实现了按照领域进行Web服务查找的方法。实验证明该方法具有较高的精确度。  相似文献   

17.
提出了利用google对wsdl文件搜索来动态生成网络服务的方式,取代了以往在UDDI注册中心的集中式搜索方式,使得我们可以发现在网络上的可用的Web Service,将之应用到语义网络的工作流模型上,使得工作流的动态生成和执行成为可能.  相似文献   

18.
随着Web信息的快速增长和人们对信息检索质量要求的提高,传统的搜索引擎已不能很好地满足人们的需求. 本文提出了一种个性化元搜索引擎模型.个性化是指模型可以针对不同的用户建立不同的用户兴趣模型,然后根据用户兴趣,模型对搜索结果进行过滤、重排序处理,使得显示给用户的搜索结果更具有针对性.本文阐述了各主要功能模块工作原理,并详细介绍了根据用户兴趣模型对搜索结果进行排序的算法,实验表明该算法能够有效地提高用户的检索质量.  相似文献   

19.
Three information retrieval storage structures are considered to determine their suitability for a World Wide Web search engine: The Wolverhampton Web Library — The Next Generation. The structures are an inverted file, signature file and Pat tree. A number of implementations are considered for each structure. For the index of an inverted file a sorted array, B-tree, B+-tree, trie and hash table are considered. For the signature file vertical and horizontal partitioning schemes are considered and for the Pat tree a tree and array implementation are considered. A theoretical comparison of the structures is done on seven criteria that include: response time, support for results ranking, search techniques, file maintenance, efficient use of disk space (including the use of compression), scalability and extensibility. The comparison reveals that an inverted file is the most suitable structure, unlike the signature file and Pat tree, which encounter problems with very large corpora.  相似文献   

20.
基于Rough集潜在语义索引的Web文档分类   总被引:5,自引:0,他引:5  
Rough集(粗糙集)埋论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约简算法生成分类规则,最后利用多知识库进行文档分类。通过试验比较,该方法具有较好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号