首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
中文文本的信息自动抽取和相似检索机制   总被引:1,自引:0,他引:1  
目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上,利用语义关系到模板槽的映射机制,填充文本语义模板,形成结构化文本数据库.基于文本数据表述的模糊性,给出用户查询与文本语义模板的相似关系,实现了相似检索,可以更加全面地满足用户的信息需求.  相似文献   

2.
针对个性化站点较少考虑用户检索意图的问题,提出结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法,旨在不需要用户任何反馈的条件下,为用户推荐更满意的检索结果。通过过滤用户请求个性化站点时的访问地址,获取用户浏览的网页文本内容,从中提取能够表示用户检索意图的关键词集进行重新检索后对检索结果排序,最后将排序后的结果作为推荐模块返回给用户。实验表明,利用该方法获得的查询推荐结果能够更加符合用户检索意图,提供更好的用户体验。  相似文献   

3.
为了更加有效地检索到符合用户复杂语义需求的图像,提出一种基于文本描述与语义相关性分析的图像检索算法。该方法将图像检索分为两步:基于文本语义相关性分析的图像检索和基于SIFT特征的相似图像扩展检索。根据自然语言处理技术分析得到用户文本需求中的关键词及其语义关联,在选定图像库中通过语义相关性分析得到“种子”图像;接下来在图像扩展检索中,采用基于SIFT特征的相似图像检索,利用之前得到的“种子”图像作为查询条件,在网络图像库中进行扩展检索,并在结果集上根据两次检索的图像相似度进行排序输出,最终得到更加丰富有效的图像检索结果。为了证明算法的有效性,在标准数据集Corel5K和网络数据集Deriantart8K上完成了多组实验,实验结果证明该方法能够得到较为精确地符合用户语义要求的图像检索结果,并且通过扩展算法可以得到更加丰富的检索结果。  相似文献   

4.
在语义搜索引擎系统中,为了使检索内容在不限制用户输入的情况下,检索结果更接近用户的需求,提出一种基于影视素材本体的查询扩展方法。对用户的检索文本中的关键词依据本体模型进行推理并按照相似度语义扩展,旨在得到更符合用户检索需求的扩展关键词集,在此基础上进行影视素材的检索,从而提高搜索引擎的召回率。  相似文献   

5.
基于文本过滤的数字图书馆个性化服务技术   总被引:3,自引:0,他引:3  
在数字图书馆的应用中,个性化服务可以为用户提供符合其兴趣的检索结果。提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。  相似文献   

6.
为提高网络信息检索系统的查全率和查准率,引入空间向量模型设计网络信息检索系统。首先,基于网络信息检索系统结构基本框架采集和预处理网络信息文档。其次,引入空间向量模型计算文本段与查询式相似度。再次,根据相似度计算公式设置不同网络信息文档的相似度门槛值。最后,基于相似度门槛值过滤网络信息检索,将过滤后的网络信息作为检索结果显示给系统用户。通过对比实验的方式证明,新的检索系统可根据用户输入内容给出查全率和查准率较高的检索结果。  相似文献   

7.
该文介绍了一个应用于结构化文本的检索系统的设计和实现。根据结构化文本的自身特点,提出了文本层次划分的思想,通过层次划分,文本被切分成有结构信息和有独立思想内容的文本单元。在此基础上,对检索词实现结构化索引,同时采用层次匹配嵌套查询的方法来实现用户自然语言的提问查询。用户查询处理中还综合运用了查询结果优化、相似查询、二次查询及反馈评分的技术。  相似文献   

8.
相似度计算的质量对于搜索引擎的速度和准确率有着很大的影响。本文提出了基于PageRank值的文本相似度改进模型(BPVSM),以PageRank值对文本分类,在计算文本相似度时考虑不同类别的信息差异。对1370条信息进行检索,用改进后的模型对检索结果进行重排序。实验表明,改进后的模型可以提高检索的准确率。  相似文献   

9.
在语义层和底层特征之间的语义断层是网络图像语义检索中的难点。由于用户习惯使用文本表示检索意图,来自网络的图片一般带有文字,故利用文本构建图像语义层,将图像底层特征处理为HSV空间中的向量,通过同维处理使二者可进行相似度计算。语义层和图像底层之间相似性倒数作为边权值,问题转化为求有向无环图中最短路径;用改进的Dijkstra算法求该路径。实验表明检索精度较传统的颜色直方图检索有一定提高。  相似文献   

10.
当设计师使用文本在设计库中检索素材时,基于词匹配的搜索无法有效地识别文本中的设计意图并推荐合适的素材.对此,提出一个结合词向量和自注意力机制的设计素材推荐系统.首先从预训练词向量模型中获取文本的词向量表征;然后利用自注意力机制学习文本中不同词的权重以及文本与设计语义间的映射关系;最后基于模型输出与向量相似,检索并重排序设计素材形成推荐.所提系统还能检索带有不同语义标签的素材数据,通过计算其语义与设计语义的词相似作为权重,转换其数据维度与模型输出维度一致.基于1 300个电商设计案例和200种字体进行实验的结果表明,用户评估推荐结果的有效率分别为55%和57.3%,处于同类工作中上水平;验证了该系统的可行性及有效性.  相似文献   

11.
企业中的信息随着企业的不断发展而呈现爆炸式的增长,如何在海量数据中检索需要的文本是企业知识管理中的一个重要的研究课题。把本体引入到企业文本检索中来,以文本的自然段为检索的最小单位,提出了一个信息检索的模型。该模型能从企业文本中抽取信息而建立本体描述符,用本体描述符来表示文本的自然段,从而对检索要求和自然段进行语义匹配,最后得到检索结果。  相似文献   

12.
面向文本检索的语义计算   总被引:15,自引:1,他引:14  
赵军  金千里  徐波 《计算机学报》2005,28(12):2068-2078
随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高.作为对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一.将语义计算技术应用于文本检索,是智能检索的重要方向.文中在文本检索的两个关键技术(“标引”和“相似度计算”)中引入语义计算技术,用浅层语义来指导检索过程,提高检索准确率.针对“标引”技术,提出了语义树模型;针对“相似度计算”,基于语义张量的概念,结合自然语言处理的一些技术,提出三个可计算的窗口模型来近似语义张量的核心思想.以上工作在一定程度上实现了语义计算的功能.利用TREC数据集进行的评测表明,采用了语义计算技术后,文本检索的准确率可以提高10%左右.  相似文献   

13.
目的 服装检索方法是计算机视觉与自然语言处理领域的研究热点,其包含基于内容与基于文本的两种查询模态。然而传统检索方法通常存在检索效率低的问题,且很少研究关注服装在风格上的相似性。为解决这些问题,本文提出深度多模态融合的服装风格检索方法。方法 提出分层深度哈希检索模型,基于预训练的残差网络ResNet(residual network)进行迁移学习,并把分类层改造成哈希编码层,利用哈希特征进行粗检索,再用图像深层特征进行细检索。设计文本分类语义检索模型,基于LSTM(long short-term memory)设计文本分类网络以提前分类缩小检索范围,再以基于doc2vec提取的文本嵌入语义特征进行检索。同时提出相似风格上下文检索模型,其参考单词相似性来衡量服装风格相似性。最后采用概率驱动的方法量化风格相似性,并以最大化该相似性的结果融合方法作为本文检索方法的最终反馈。结果 在Polyvore数据集上,与原始ResNet模型相比,分层深度哈希检索模型的top5平均检索精度提高11.6%,检索速度提高2.57 s/次。与传统文本分类嵌入模型相比,本文分类语义检索模型的top5查准率提高29.96%,检索速度提高16.53 s/次。结论 提出的深度多模态融合的服装风格检索方法获得检索精度与检索速度的提升,同时进行了相似风格服装的检索使结果更具有多样性。  相似文献   

14.
Document ranking and the vector-space model   总被引:2,自引:0,他引:2  
Efficient and effective text retrieval techniques are critical in managing the increasing amount of textual information available in electronic form. Yet text retrieval is a daunting task because it is difficult to extract the semantics of natural language texts. Many problems must be resolved before natural language processing techniques can be effectively applied to a large collection of texts. Most existing text retrieval techniques rely on indexing keywords. Unfortunately, keywords or index terms alone cannot adequately capture the document contents, resulting in poor retrieval performance. Yet keyword indexing is widely used in commercial systems because it is still the most viable way by far to process large amounts of text. Using several simplifications of the vector-space model for text retrieval queries, the authors seek the optimal balance between processing efficiency and retrieval effectiveness as expressed in relevant document rankings  相似文献   

15.
文本挖掘技术是从海量文本信息中获取潜在有用知识的有效途径。传统的文本挖掘方法由于不能有效运用语义信息而难以达到更高的准确度。本体论为语义信息的合理表示和有效组织提供了理论支持和技术手段,把本体引入到商务企业文本检索中,以文本的段落为检索的最小单位,提出了一个信息检索的模型。该模型能从文本中抽取信息而建立本体标识符,用本体标识符来表示文本的段落,从而对检索要求和段落进行语义匹配,最后得到检索结果。  相似文献   

16.
Legal text retrieval traditionally relies upon external knowledge sources such as thesauri and classification schemes, and an accurate indexing of the documents is often manually done. As a result not all legal documents can be effectively retrieved. However a number of current artificial intelligence techniques are promising for legal text retrieval. They sustain the acquisition of knowledge and the knowledge-rich processing of the content of document texts and information need, and of their matching. Currently, techniques for learning information needs, learning concept attributes of texts, information extraction, text classification and clustering, and text summarization need to be studied in legal text retrieval because of their potential for improving retrieval and decreasing the cost of manual indexing. The resulting query and text representations are semantically much richer than a set of key terms. Their use allows for more refined retrieval models in which some reasoning can be applied. This paper gives an overview of the state of the art of these innovativetechniques and their potential for legal text retrieval.  相似文献   

17.
随着计算机软硬件技术的进步以及Hypertext模型的出现,使全文检索技术应用普及的可能性变为现实。本文分析了全文检索技术应用于图书情报领域信息管理的意义,并给出了实施全文检索机制的主要步骤和方法。  相似文献   

18.
智能文本搜索新技术   总被引:1,自引:0,他引:1  
面对当今互联网上海量的信息,以及搜索信息准确、高效、个性化等需求,提出了一套包括信息检索、信息抽取和信息过滤在内的智能文本搜索新技术.首先举荐了与信息检索新技术相关的企业检索、实体检索、博客检索、相关反馈子任务.然后介绍了与信息抽取技术相关的实体关联和实体填充子任务,以及与信息过滤技术相关的垃圾邮件过滤子任务.这些关键技术融合在一起,在多个著名的国际评测中得到应用,如美国主办的文本检索会议评测和文本分析会议评测,并且在互联网舆情、短信舆情和校园网对象搜索引擎等实际系统中得到了检验.  相似文献   

19.
Automatic text categorization and its application to text retrieval   总被引:4,自引:0,他引:4  
We develop an automatic text categorization approach and investigate its application to text retrieval. The categorization approach is derived from a combination of a learning paradigm known as instance-based learning and an advanced document retrieval technique known as retrieval feedback. We demonstrate the effectiveness of our categorization approach using two real-world document collections from the MEDLINE database. Next, we investigate the application of automatic categorization to text retrieval. Our experiments clearly indicate that automatic categorization improves the retrieval performance compared with no categorization. We also demonstrate that the retrieval performance using automatic categorization achieves the same retrieval quality as the performance using manual categorization. Furthermore, detailed analysis of the retrieval performance on each individual test query is provided  相似文献   

20.
Automatic text segmentation and text recognition for video indexing   总被引:13,自引:0,他引:13  
Efficient indexing and retrieval of digital video is an important function of video databases. One powerful index for retrieval is the text appearing in them. It enables content-based browsing. We present our new methods for automatic segmentation of text in digital videos. The algorithms we propose make use of typical characteristics of text in videos in order to enable and enhance segmentation performance. The unique features of our approach are the tracking of characters and words over their complete duration of occurrence in a video and the integration of the multiple bitmaps of a character over time into a single bitmap. The output of the text segmentation step is then directly passed to a standard OCR software package in order to translate the segmented text into ASCII. Also, a straightforward indexing and retrieval scheme is introduced. It is used in the experiments to demonstrate that the proposed text segmentation algorithms together with existing text recognition algorithms are suitable for indexing and retrieval of relevant video sequences in and from a video database. Our experimental results are very encouraging and suggest that these algorithms can be used in video retrieval applications as well as to recognize higher level semantics in videos.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号