首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
提出一种在无标注图像库中进行的基于关键词的检索方法.该方法在用户输入关键词后,首先利用图像周围的文字信息从网页中过滤一部分与检索主题无关的图像.然后利用图像的视觉特征在之前的基础上筛选出与检索词具有高度相关性的图像.最后利用数据审计技术对筛选出的图像进行进一步精化,并利用精化后的图像对图像库进行检索.实验结果表明,借助数据审计技术,该方法可有效提高对无标注图像库进行基于关键词的检索性能.  相似文献   

2.
尹盼盼  崔荣一 《计算机工程与设计》2011,32(12):4223-4226,4250
为了实现学术主题相关的科技论文检索,提出了一种基于引文相关性排序的科技论文检索方法。自动抽取科技论文的结构信息,获得论文的标题、摘要、关键词和引文;根据引文与标题的相关性,评价引文的重要性,用引文的评价得分修正引文向量特征项的权重,构造引文的词项-文档关联矩阵,并利用奇异值分解方法构造引文的潜在语义空间,计算查询论文与文档库中论文的引文语义相关性;采用信息增益方法确定了引文相关性阈值,将引文相关性超过阈值的科技论文作为检索结果返回。实验结果表明,提出的检索方法的准确率、召回率、综合性能均高于基于概括性信息(标题、摘要、关键词)的检索方法。  相似文献   

3.
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。  相似文献   

4.
基于查询扩展词条加权的文本检索研究   总被引:1,自引:1,他引:0  
本文分析了关键词检索文本,由于其查询词没有扩展导致检全率低;而概念检索文本虽然部分有检索词扩展,但是查询词权重与原查询词没有区分.为此,本文利用词条间的语义相似度,提出一种查询扩展词条权重计算方法--展开减小法,并将查询词以及扩展词经展开减小法计算权重后构建向量空间模型检索文本.实验表明,构建的检索模型检索文本,其综合...  相似文献   

5.
该文针对分布式信息检索时不同集合对最终检索结果贡献度有差异的现象,提出一种基于LDA主题模型的集合选择方法。该方法首先使用基于查询的采样方法获取各集合描述信息;其次,通过建立LDA主题模型计算查询与文档的主题相关度;再次,用基于关键词相关度与主题相关度相结合的方法估计查询与样本集中文档的综合相关度,进而估计查询与各集合的相关度;最后,选择相关度最高的M个集合进行检索。实验部分采用RmP@nMAP作为评价指标,对集合选择方法的性能进行了验证。实验结果表明该方法能更准确的定位到包含相关文档多的集合,提高了检索结果的召回率和准确率。  相似文献   

6.
查询扩展技术是在原有用户查询的基础上加入语义相关的新词,组成语义更准确的查询条件。文中对查询扩展算法中扩展词加权方法进行改进,提出一种基于初始用户查询意欲和词与词间语义关联性给扩展词加权的方法。根据此算法得到的扩展词权值不仅反映了该扩展词和原关键词间的关联性,还反映出该扩展词和查询关键词集合中所有元素的关联性。因此,可将基于语义树的查询扩展问题转换为扩展词权值wijs,o,p的计算,如何计算出权值wijs,o,p是文中的核心。实验证明,该算法提高了检索的查准率。  相似文献   

7.
语义检索系统中的查询语句扩展算法改进   总被引:1,自引:1,他引:0  
查询扩展技术是在原有用户查询的基础上加入语义相关的新词,组成语义更准确的查询条件.文中对查询扩展算法中扩展词加权方法进行改进,提出一种基于初始用户查询意欲和词与词间语义关联性给扩展词加权的方法.根据此算法得到的扩展词权值不仅反映了该扩展词和原关键词间的关联性,还反映出该扩展词和查询关键词集合中所有元素的关联性.因此,可将基于语义树的查询扩展问题转换为扩展词权值wiis,o,p的计算,如何计算出权值wijs,o,p是文中的核心.实验证明,该算法提高了检索的查准率.  相似文献   

8.
查询扩展是提高检索效率的有效方法.但是许多查询扩展方法中扩展词的选择没有充分考虑词项之间以及词项与文档之间的相关性,这样可能在查询扩展时加入太多不相关信息降低检索的性能.通过对文档间相关性和词间相关性的计算,把文档和词关联起来构建Markov网络检索模型,然后根据词项子空间和文档子空间的映射关系提取词团,将提取的词团信息用于查询扩展,使得查询扩展的内容更为相关.实验表明:基于文档团依赖的Markov检索模型能有效地提高检索效果.  相似文献   

9.
结合类频率的关联中文文本分类   总被引:6,自引:2,他引:6  
该文提出一种词类频率和关联中文文本分类相结合的算法ARCTC。此算法将文档视作事务,关键词视作项,并针对文本事务的特性,提出利用词的类频率筛选与分类相关性不大的词汇,然后将改进的关联规则挖掘算法用于挖掘项和类别间的相关关系。挖掘出的规则用于形成类别特征词的集合,可用来和类标号未知文档的词的集合求交集,交集元素个数最多者即为所分类别。实验证明,该算法在提高训练时间和测试时间的同时具有较好的召回率、准确率和F-Measure。  相似文献   

10.
一种基于局部共现的查询扩展方法   总被引:16,自引:2,他引:16  
针对信息检索中文档与查询之间的词不匹配问题,本文提出了一种基于局部共现的查询扩展方法LOCOOC。LOCOOC利用词项与所有查询词在局部文档集合中的共现程度来评估扩展词的质量,并整合了词项在语料集中的全局统计信息,使得选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。实验结果表明:与未进行查询扩展时相比,采用LOCOOC方法进行扩展后,平均准确率提高40%以上;与传统的局部反馈方法以及局部上下文分析方法(LCA,Local Context Analysis)相比,LOCOOC不仅具有更优的检索性能,而且有着更好的鲁棒性。  相似文献   

11.
通过对数据库如何存取图片的研究,提出在.Net平台下基于Web的SQL Server数据库存取图片的优化算法,该算法能有效优化图片大小,节省数据库容量,不占用服务器空间,减少服务器的响应时间,提高网页中的图片加载速度。  相似文献   

12.
本文分别从网页的使用功能和艺术设计两个方面着手,研究探讨两者的关系,对初级概念网页和概念网页的形成和发展进行论述。笔者认为概念网页是设计者对未来网页形式的探索,预测未来网页的结构和形式,向人们展示设计者新颖、独特、前卫的设计思想,概念网页是时代的最新研究成果,代表着未来网页的发展方向。  相似文献   

13.
随着互联网的发展,一个网站需要与访问者有一定的交互功能,网站中的页面已经由静态网页逐渐发展为静态与动态网页并重。本文探讨了交互式动态网页的设计与制作技术。  相似文献   

14.
A Probabilistic Approach for Distillation and Ranking of Web Pages   总被引:1,自引:0,他引:1  
Greco  Gianluigi  Greco  Sergio  Zumpano  Ester 《World Wide Web》2001,4(3):189-207
A great number of recent papers have investigated the possibility of introducing more effective and efficient algorithms for search engines. In traditional search engines the resulting ranking is carried out using textual information only and, as showed by several works, they are not very useful for extracting relevant information. Present research, instead, takes a new approach, called Topic Distillation, whose main task is finding relevant documents using a different similarity criterion: retrieved documents are those related to the query topic, but which do not necessarily contain the query string. Current algorithms for topic distillation first compute a base set containing all the relevant pages and then, by applying an iterative procedure, obtain the authoritative pages. In this paper, we present a different approach which computes the authoritative pages by analyzing the structure of the base set. The technique applies a statistical approach to the co-citation matrix (of the base set) to find the most co-cited pages and combines a link analysis approach with the content page evaluation. Several experiments have shown the validity of our approach.  相似文献   

15.
在农业网站中存在着大量的含有无效信息的网页,为了将这些垃圾网页从海量的网页中过滤出去,本文提出了一种新的方法,即通过朴素贝叶斯法与决策树法相结合的方法来判别垃圾网页。  相似文献   

16.
基于内容的中文网页自动分类研究   总被引:7,自引:0,他引:7  
本文主要介绍基于内容的网页自动分类系统,具体介绍了类别词典的建造方法,网页超文本类别词切分的方法,中文网页自动分类算法以及利用类别词与网页间的模糊关系对网页文本进行自动分类等内容.通过对旅游网页进行测试,自动分类正确率可达93.37%以上,有效地提高了查准率和查全率.  相似文献   

17.
为了更好地向用户提供个性化的Web检索服务,实现了一种改进的个性化词典的生成算法——IGAUPD,用于在用户浏览的大量兴趣网页中挖掘出真正符合用户兴趣的词语,以此缩小传统词库的容量,使得在用户兴趣建模时,能更快更准确地形成兴趣网页的特征描述,并更好地支持个性化检索。IGAUPD算法采用新的词权计算公式IWTUPD,以更好地描述词语在网页集中的重要性,有效排除频繁词。最后,用实验验证了由IGAUPD算法生成的个性化词典的优势。  相似文献   

18.
In this paper, a model for websites is presented. The model is well-suited for the formal verification of dynamic as well as static properties of the system. A website is defined as a collection of web pages which are semantically connected in some way. External web pages (which are related pages not belonging to the website) are treated as the environment of the system. We also present the logic which is used to specify properties of websites, and illustrate the kinds of properties that can be specified and verified by using a model-checking tool on the system. In this setting, we discuss some interesting properties which often need to be checked when designing websites. We have encoded the model using the specification language Maude which allows us to use the Maude model-checking tool.  相似文献   

19.
对A SP.NET页面文件的访问控制机制进行了研究,建立了一个通用页面访问模型。该模型以SQLServer数据库存储用户、用户组和页面文件及文件夹等控制资源,在页面文件中自动提取文件或文件夹名,通过公共函数进行用户或用户组的访问权限检索,最终实现用户对页面的访问权限控制。提供了一种类似W indow s基于用户-组的网页通用访问模型。  相似文献   

20.
随着互联网的发展,网页形式日趋多变。短正文网页日益增多,传统的网页正文自动化抽取方式对短正文网页抽取效果较差。针对以上问题,该文提出一种单记录(新闻、博客等)、短正文网页的正文自动化抽取方法,在该方法中,首先利用短正文网页分类算法对网页进行分类,然后针对短正文网页,使用基于页面深度以及文本密度的正文抽取算法抽取正文。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号