首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对传统网页排序算法Okapi BM25通常会出现网页与查询关键词领域无关的领域漂移现象,以及改进算法需要人工建立领域向量的问题,提出了一种基于BM25和Softmax回归分类模型的网页搜索排序算法。该方法首先对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示,之后通过少量的网页数据来训练Softmax回归分类模型,来预测测试网页数据的类别分数,并与BM25信息检索的分数结合在一起,得到最终的网页排序结果。实验结果显示该检索算法无须人工建立领域向量,即可达到很好的网页排序结果。  相似文献   

2.
基于本体集成的语义标注模型设计   总被引:1,自引:0,他引:1  
语义Web的全面实现需借助于语义标注,标注网页信息会涉及到多个本体.据此,通过研究桥本体,提出一个在本体集成的基础上建立起来的多本体语义标注模型.该模型利用桥本体集成顶层本体和多个领域本体,同时借助基于本体的信息抽取技术对网页进行语义标注,并将标注信息存入标注库,使标注信息与网页分离,提高语义检索的效率.通过举例说明了本模型的合理性.  相似文献   

3.
论文综合利用主题搜索技术、深网信息集成技术和Wiki技术,设计并实现了一个面向数学领域的教育平台.此平台是一个集数学资源共享和用户交流的开放平台,用户在此平台可以利用数学Wiki添加、编辑、评论数学领域信息,提升自主学习能力,实现广泛交流.同时,还能利用数学搜索引擎搜索到专业的数学知识,定制URL检索,扩大检索范围,提高了平台的个性化服务水平及搜索的准确率.实验结果表明,文中基于SVM分类算法的数学主题网页分类器具有较高的准确率和召回率.  相似文献   

4.
随着网络信息资源的迅速增加,对于主题Web文本信息的搜索与分类日益成为信息处理领域的一个重要问题。本文建立了一个面向化工领域的Web文本搜索与分类系统,该系统在crawler子系统搜集Web文档的基础上,利用支持向量机对网页进行二次分类,找出化工专业中文网页;然后利用向量空间模型,对分类好的专业网页进行多子类分类。与综合搜索引擎相比,具有速度快、搜索信息准确度高和具备学习能力的特点。  相似文献   

5.
如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主题相关度、链接指向网页PR值和该网页主题相关度的综合计算,提出了基于网页内容和链接结构相结合的超链接综合优先度评估方法。同时,针对搜索过程易陷入局部最优的不足,首次设计了结合爬虫记忆历史主机信息和模拟退火的网络主题爬虫算法。以暴雨灾害为主题进行爬虫实验的结果表明,在爬取相同网页数的情况下,相比于广度优先搜索策略(Breadth First Search,BFS)和最佳优先搜索策略(Optimal Priority Search,OPS),所提出的算法能抓取到更多与主题相关的网页,爬虫算法的准确率得到明显提升。  相似文献   

6.
大量的网页资源和网页的动态特性突出了基于网页信息搜索系统的不断支持和升级的要求.搜索引擎系统中的爬行虫就是为搜集网页中的信息而设计的.爬行虫通过网页中的超链接方便了某个特殊网页快照的自动下载.讨论的根本是与爬行虫的内部架构发展相关.论文首先分析Web信息采集系统模型和爬行虫的搜索策略,给出一个适合中小型网站网页具体信息获取的爬行虫算法,并使用C++ Builder工具实现程序.本文也给出了一些与主题搜索相关的程序说明.  相似文献   

7.
用户通过检索平台能获得大量信息,但搜索结果往往会出现主题漂移、偏重旧网页的现象,不能满足用户实际需求.为改善这种现象,提出了一种改进的PageRank算法.该算法采用BM25相似度算法对主题相似度进行计算,根据相似度评分来赋予不同的影响权重,可以提相似度高的网页的排名;利用网页在搜索引擎周期内被搜索到的次数来表示网页存...  相似文献   

8.
王大玲  于戈  鲍玉斌  张沫  沈洲 《软件学报》2010,21(1):1083-1097
基于目前对用户搜索意图的分类,进一步分析了每种用户意图的信息需求,提出了基于用户搜索意图的 Web 网页动态泛化模型,为搜索的Web 网页动态地建立文档片段、关键词、导航类型、文档格式之间的概念层次, 通过网页内容、类型和格式的泛化为不同的访问意图提供进一步的搜索导航,从而返回与搜索意图更相关的结果. 与相关工作对比,重点并非获取用户意图,也不是对用户意图分类,而是基于用户搜索意图的Web 网页动态泛化模型 的建立及Web 网页泛化过程的实现.实验结果表明,该泛化模型不仅能够通过导航自动获取用户搜索意图,而且能够 基于该意图提供相关搜索结果以及进一步的搜索导航.  相似文献   

9.
基于用户搜索意图的Web网页动态泛化   总被引:3,自引:0,他引:3  
基于目前对用户搜索意图的分类,进一步分析了每种用户意图的信息需求,提出了基于用户搜索意图的Web网页动态泛化模型,为搜索的Web网页动态地建立文档片段、关键词、导航类型、文档格式之间的概念层次,通过网页内容、类型和格式的泛化为不同的访问意图提供进一步的搜索导航,从而返回与搜索意图更相关的结果.与相关工作对比,重点并非获取用户意图,也不是对用户意图分类,而是基于用户搜索意图的Web网页动态泛化模型的建立及Web网页泛化过程的实现.实验结果表明,该泛化模型不仅能够通过导航自动获取用户搜索意图,而且能够基于该意图提供相关搜索结果以及进一步的搜索导航.  相似文献   

10.
Internet上有成千上万个网站,内容包罗万象,但如何准确迅速地找到自己需要的网页,就不是件容易的事了,这时需要借助于网上搜索工具。网上搜索工具的分类常用的上网工具可分为四大类:万维网目录服务网站、搜索引擎网站、集成搜索工具类网站及其软件。万维网目录服务类网站的搜索方式是先将各种网站按类别进行分组,然后通过逐步缩小搜索范围来指引用户找到他所要查找的网页,它们通过人工对信息分类的处理来建立和维护自己庞大的站点信息数据库,用户查找时显示的分类目录就是它们数据库中的信息。万维网目录服务类网站除了能提…  相似文献   

11.
网络信息的日益增加迫切需要适宜的检索工具,特别是进行专业信息的检索,需要体现专业词汇特点的搜索引擎。本文在对搜索引擎核心技术进行研究的基础上,提出了石油化工信息搜索引擎的设计方案,开发了网络机器人模块,实现了海量网页的自动获取;采用最短路径分词和正向最大匹配相结合的算法,实现了中文自动分词;开发了信息索引模块,实现了网页的批量索引和增量索引;开发了信息检索模块,提供布尔逻辑查询,实现摘要自动生成。通过系统集成,初步建立了体现石油化工专业特点的搜索引擎。  相似文献   

12.
基于多模态信息挖掘融合的视频检索技术   总被引:1,自引:0,他引:1  
基于内容的多媒体检索特别是视频检索,由于多媒体数据本身具有复杂的语义,所以极大地提高了检索的难度.算法着眼于视频本身挖掘出充分的资源信息并且将这些信息加以融合来提高视频检索的性能.基于这种思想,提出一种多模态视频检索模型以及相应的手动式搜索和交互式搜索的算法方案.搜索策略在TRECVID视频检索比赛中取得了不错的成绩.  相似文献   

13.
This paper presents a new method of retrieving cases from a case-base on the K-tree search algorithm. Building an automated CBR system relies on representing knowledge in an appropriate form and having efficient case retrieval methods. Using the Intelligent Business Process Reengineering System (IBPRS) architecture as a base, we discuss a model-based case representation approach to solve the knowledge elicitation bottleneck problems. In addition to presenting the model-based case representation method, we introduce a K-tree search method to transform the case base into a tree structure, and discuss how it can be applied to the case retrieval process in IBPRS. The basic idea of the algorithm is to use various attribute values defined in the case label as general information for the case matching and retrieval.  相似文献   

14.
为了构建实体关系网络、改进和完善基于概念的信息检索,提出一种不针对特定属性类型的从机读词典中抽取概念实例的属性值信息的方法。首先,通过手工标注和遴选等方式生成初始实体—属性值对集并抽取出粗糙模式实例集;其次,经过对模式实例集的聚类合并和扩充处理得到若干组的模式实例,每一组代表一个属性类型;最后,从词典中抽取出新实体词汇的属性值信息。在模式实例集的处理中引入了同义词扩展和词汇语义相似度计算以提高模式实例的覆盖率。实验中针对《现代汉语规范词典》中的电子领域词汇进行抽取,取得了较好的效果。  相似文献   

15.
基于对象的彩信图像检索系统是继图像检索和彩信检索结合的新一代信息检索技术,介绍了目前热门的基于对象的图像检索系统的概念,以及应用到彩信检索领域的工作原理.在基于对象的图像检索基础上,加入了对图像中区域对象的识别过程,并将识别结果存入图像属性索引数据库,然后在检索过程中根据用户输入的对象查询请求,到数据库里进行检索,最终将检索结果返回给彩信用户.  相似文献   

16.
Performance measures are frequently used to evaluate user friendliness of a system. An equally important, but often overlooked factor is the users' attitudes towards a system. A prototype interface for information retrieval was developed for presenting engineering manuals online. It was tested on a representative sample of the intended end user community. We found that subjects' expectations were based on their experience with printed materials and other computer systems. Familiar search mechanisms (e.g., table of contents, index) were important for getting them started, even though they switched to other mechanisms as they gained more experience with the system. The fact that the index was more detailed than the one in the printed manual was seen by the subjects as critical for speedy and efficient information retrieval. Keyword search of the database was generally the preferred retrieval mechanism. However, some users preferred the index. The 'Table of Contents' which was a tree structured menu based system was found to be of limited use in the electronic medium, in contrast to the printed manual.  相似文献   

17.
传统的网络信息检索技术如搜索引擎存在一些不足,一方面它只是将信息搜寻出来,不能发现隐藏在数据背后的知识;另一方面其采集软件在采集数据时缺乏人工干预,智能性不强,导致信息利用率不高.针对传统的Web搜索引擎存在的上述问题,结合Web文本挖掘、XML、BP神经网络在数据处理方面的长处,提出了一个具有一定智能的Web文本信息检索模型,以使其具有较高的信息利用率.  相似文献   

18.
Online jobs search through popular websites are quite beneficial having served for many years as a prominent tool for job seekers and employers alike. In spite of their valuable utility in linking employers with potential employees, the search process and technology utilized by job search websites have not kept pace with the rapid changes in computing capability and machine intelligence. The Information retrieval techniques utilized by these websites rely primarily on variants of manually entered search queries with some advanced similarity metrics for ranking search results.Advancements in machine intelligence techniques have enabled programmatic extraction of pertinent information about the job seeker and job postings without active user input. To this end, we developed a resume matching system, RésuMatcher, which intelligently extracts the qualifications and experience of a job seeker directly from his/her résumé, and relevant information about the qualifications and experience requirements of job postings. Using a novel statistical similarity index, RésuMatcher returns results that are more relevant to the job seekers experience, academic, and technical qualifications, with minimal active user input.Our method provides up to a 34% improvement over existing information retrieval methods in the quality of search results. In addition however, RésuMatcher requires minimal active user input to search for jobs, compared to traditional manual search-based methods prevalent today. These improvements, we hypothesize, will lead to more relevant job search results and a better overall job search experience for job seekers.As an alternative to the fragmented organization-centric job application process, job recruitment websites offered the promise of simplifying and streamlining the job search process. However, these websites offer limited functionality using generic and simplistic information retrieval methods, which being non-domain lead to a poor and frustrating search experience. In this paper, we present RésuMatcher, a personalized job-résumé matching system, which offers a novel statistical similarity index for ranking relevance between candidate résumés and a database of available jobs. In our experiments we show that our method offers a 37.44% improvement over existing information retrieval methods in the quality of matches returned.  相似文献   

19.
20.
传统的搜索引擎性能评价方法需要人工标注标准答案集,需花费大量的人力物力,并且评价结果依赖于人工标注的准确性,效率较低。该文基于聚类分析的思路,提出了一种搜索引擎性能评价指标和自动进行搜索引擎性能评价的方法,此方法能自动计算信息类查询的覆盖范围,并根据其覆盖范围对检索结果进行聚类,通过类间距和类内距等指标实现检索性能的自动评价。实验结果表明,基于聚类指标的评价方法与人工标注的评价方法的评价结果是相一致的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号