首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
一种基于内容的文档图像检索方法   总被引:1,自引:0,他引:1  
使用一个图像作为查询检索输入,根据该图像的版面分析特征、统计特征、纹理特征与数据库中图像的相似程度检索图像.该检索方法首先利用数学形态学对文档图像进行段落分割和行分割,作为文档图像的版面结构特征;然后根据图像的统计特征包括字符数、统计数特征、纹理特征给出文档图像抽取算法;最后给出检索算法模型.实验结果表明,本算法具有较好的查准率和查全率,在基于内容的文档图像检索中具有应用价值.  相似文献   

2.
基于潜在语义分析的文档检索设计方法   总被引:1,自引:0,他引:1  
文档检索系统围绕如何基于语义层面进行检索来展开研究.基于关键词匹配的检索系统不能处理多词一义的情况,针对此问题设计了基于潜在语义分析的文档检索系统.首先改进了文档一词矩阵单元值的计算过程,调整了传统高频词与低频词在权重上的线性关系,利用Sigmiod函数对权重做平滑处理,使其更符合文档中词的权重;其次利用潜在语义分析结合多维尺度分析算法,优化计算文档在语义间的距离.实验结果显示,能有效在语义上聚类文档,完成查询语句与文档集之间的相似度检索计算.  相似文献   

3.
提出了一种基于潜在语义分析(LSA)的相似文本匹配算法,并将其应用于自动评卷系统中.首先,在充分考虑词项之间相关性的基础上,在低维空间中表示学生答案文本与标准答案文本,然后利用奇异值分解方法模型对其进行了改进;其次,利用LSA技术,以学生答案文本与标准答案文本之间的余弦相似度作为相似性准则,根据相似度值确定该题的得分.实验结果表明,该算法充分考虑了文本语义信息,评分效果较好,是实现基于语义评卷系统的有益探索.  相似文献   

4.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

5.
为了解决微博检索面临的"用户查询"和"相关文档"都是极端短文本的情况,及由此造成的检索性能欠佳的难题,研究并实现了一种微博检索结果的二次重排算法,基于微博内容相似关系构建关系图模型,利用PageRank算法对微博检索结果进行二次排序.比较了基于余弦相似度、戴斯系数、单向戴斯系数等文本内容相似度计算方法.实验结果表明:二次排序算法能够有效提升微博检索性能,同时图模型迭代性能与相关主题比例存在依存关系.有鉴于此,讨论通过决策树重排算法去除非相关主题对微博排序的影响.  相似文献   

6.
针对分布式信息检索时不同信息集对最终检索结果贡献度有差异的现象,提出基于历史点击数据的集合选择方法(PCTD-CS).该方法利用点击数据估计各集合与历史查询的相关度.采用基于关键词和基于检索结果相结合的方法估计查询间的相似度.利用历史查询中的相似查询估计新查询与各集合的相关度,选择相关度最高的M个集合进行检索,给出要获取前k个文档的情况下各集合应当返回的文档数.采用召回率Rm、前n个检索结果的准确率P@n及平均准确率MAP对集合选择方法的性能进行验证.实验结果表明,采用PCTD-CS方法提高了检索结果的召回率和准确率,能够更准确地定位到包含相关文档多的集合.  相似文献   

7.
提出一种基于上下文多元信息实现文档相似度计算的方法,该方法首先抽取文档的特征词,对具有相同(或相近)意义特征词的文档,分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息,以量化形式描述成一个相似函数;然后分别从两两文档的相似函数中得到文档的相似度评价值,作为衡量文档相似程度的重要依据.利用该评价方法,使用NTCIR-3中的跨语言信息检索数据集中的中文文档,对初始检索文档的顺序重新排列,实验结果表明,该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15.45%~18.49%和11.96%~15.35%在另一组有关相同网页信息的实验中,几组不同类别文档相似度F1-measure平均值均在95%以上.  相似文献   

8.
针对传统基于关键字匹配的检索方法在地方志数据查询时的不足,给出了基于Solr和本体的地方志数据语义检索解决方案。建立了地方志本体库;提出了基于本体的综合语义相似度进行语义查询扩展的方法;将本体技术与全文检索技术相结合,建立了基于Solr和本体的语义检索模型架构。最后设计实验,对数据库SQL查询方法和文章提出的语义检索方法的查全率、查准率和查询时间进行对比。实验表明,文章提出的方法明显优于基于关键字匹配的数据库SQL查询方法,具有可行性和有效性。  相似文献   

9.
为了提高信息检索效率,在中文Web信息检索中引入了浅层文本分析技术。首先提取文本句子的谓词及与谓词直接关联的前置体词和后继体词。然后在将谓词转换成概念化表达的基础上,获取表达文本语义的语义向量。提出了一个语义向量相似度计算算法,用语义向量的相似度来度量文档之间的语义相似度。与主流网络搜索引擎比较,系统查准率方面有了较大提高。  相似文献   

10.
基于关键词匹配的检索方法存在不足,使用分布式大数据处理技术,基于本体对用户输入的查询关键词进行查询扩展,利用Lucene针对扩展后的关键词进行检索,按照语义相似度将检索结果排序后返回给用户。实验表明,基于本体的语义检索系统在查全率和查准率两个方面均优于传统检索方法。  相似文献   

11.
针对云环境下现有的加密模糊检索算法存在着存储容量需求过大的问题,提出了基于局部敏感哈希技术的代理加密模糊检索算法。该算法首先将文件  相似文献   

12.
To overcome the problem that the confusion between texts limits the precision in text re- trieval, a new text retrieval algorithm that decrease confusion (DCTR) is proposed. The algorithm constructs the searching template to represent the user' s searching intention through positive and negative training. By using the prior probabilities in the template, the supported probability and anti- supported probability of each text in the text library can be estimated for discrimination. The search- ing result can be ranked according to similarities between retrieved texts and the template. The com- plexity of DCTR is close to term frequency and mversed document frequency (TF-IDF). Its distin- guishing ability to confusable texts could be advanced and the performance of the result would be im- proved with increasing of training times.  相似文献   

13.
基于内容的图像检索技术已成为信息检索中的瓶颈.针对此问题提出了基于微粒群算法的图像检索技术.首先提取图像的颜色特征向量,用特征向量对粒子进行编码,检索图像的过程可以看成是利用微粒群算法在特征空间搜寻最优解的过程.该方法能够有效全面地搜索图片库,改进和提高了传统的基于内容的图像检索算法的性能.  相似文献   

14.
基于模糊集合方法和Wordnet的查询扩展技术,提出了一种用户查询词扩展的信息检索方法。先用Wordnet找出查询词的同义词,再利用广义Jaccard系数来计算2个同义词之间的相似性,选取相似性较大的同义词进行查询词扩展后实现信息检索。此方法不仅保留了模糊集合方法对查询词处理简单且容易理解的特性,还很好地解决了模糊集合方法不能对文档进行精确排序的问题。最后,提出了基于矩阵的布尔式向析取范式转化的算法,该算法转换简单快速,解决了模糊集合方法中随着查询词数量的增加使得布尔表达式转化成析取范式变得很复杂的问题。  相似文献   

15.
为了高效的进行商标设计,提出了基于内容的商标检索算法.首先应用Zernike矩描述图像的形状信息,并将手绘图作为查询条件进行检索,依据形状距离进行排序,将排序结果作为第一轮检索结果输出.其次,用户对第一轮检索结果进行标注,并将标注结果反馈给系统,通过分类器学习后,再次进行检索并输出最终检索结果.实验结果表明,提出的算法在商标图像的检索中具有检索准确率高、耗时少的特点;此外,算法可支持用户以手绘的方式进行查询,有一定的实用价值.  相似文献   

16.
在文本检索过程中,排序算法一定程度上影响到搜索引擎的质量。论文首先分析了Lucene组织结构,包括建立索引,检索索引文件以及结果集排序的工作过程和原理,着重剖析了Lucene基于向量模型的排序算法,并在原有排序算法基础上,采用基于关键词加权方式改进了全文检索的排序结果。实验结果证明,改进后的排序算法提高了系统的结果精确度,满足了项目的实际需求。  相似文献   

17.
本文讨论了概率模型的新闻资料全文检索及排序算法。作者提出了全文检索最佳排序原则。根据Neyman-Pearson决策规则导出了最优检索规则,并据此提出了BI概率模型和相应的最优查询。根据用户对被检索文献作出的相关判断,对构造BI模型的最优查询所需参数进行了估计。最后,提出了基于概率模型的全文检索排序算法。  相似文献   

18.
Lucene是一个纯Java实现的高性能、可扩展的全文信息检索工具库,可以很方便地把它融入到应用程序中来增加索引和搜索功能.分析了Lucene的索引文件结构和搜索排序算法,探讨了Lucene中计算文档与查询项相关度的向量空间模型(VSM).最后,通过实验验证了索引过程的建立以及如何提高索引性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号