首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 116 毫秒
1.
中文WEB文档自动分类是中文自动信息检索的核心技术之一.中文WEB文档的分类涉及到文档的自动抓取、信息加工和提取、自动分类等,本文实现一个开放式的中文WEB文档自动分类系统,并在系统模块中应用了几个改进算法,主要解决目前信息检索中涉及中文分词搜索时所遇到的一些问题.  相似文献   

2.
Infolite中文检索系统   总被引:9,自引:1,他引:8  
随着电子文本的大量涌现,人们对信息检索工具也提出了更高的 一个基于向量空间模型的中文信息检索系统的设计与实现,该系统既是我们用于中文信息检索研究的基础平台,也是开发实际应用系统的构件。  相似文献   

3.
 提出一种信息检索系统的设计与实现方法。该系统基于“中文领域本体学习及半自动构建方法研究”项目,针对江西省教育厅科学技术研究项目“基于句法结构分析的中文聚类算法研究及应用”项目的实际需求而设计。本文主要介绍一种较客观、较综合地在网络上获取有价值的文本信息的系统设计与实现方法。  相似文献   

4.
中文分词对中文信息检索系统性能的影响   总被引:7,自引:0,他引:7  
中文分词作为中文信息处理最重要的预处理手段被广泛应用,该文从两个方面(检索精度和召回率)深入研究了中文分词精度和分词算法对中文信息检索性能的影响。此外,提出了两个假设,并在此基础上给出了一种提高中文信息检索系统性能的方法。实验表明,新方法能够取得很好的结果,证实了这两个假设。  相似文献   

5.
分布式计算在Web信息检索中的应用   总被引:2,自引:4,他引:2  
web信息检索技术是当前研究的热门课题,本文是继上一篇文章<>在信息检索方面提出的分布式检索算法的研究,提出了检索的结构模型,检索算法。  相似文献   

6.
一个中文全文检索系统的设计与实现   总被引:3,自引:0,他引:3  
本文主要分析了中文全文检索技术中有关内容,并根据此内容设计实现了一个中文全文检索系统。在此系统中,提出了相应的数据采集方案、数据存储格式、数据压缩和信息检索机制。  相似文献   

7.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。  相似文献   

8.
本文主要介绍我们参加863信息检索评测的情况.我们的信息检索系统采用基于语言模型的信息检索方法,将命名实体技术运用在查询向量的构造中,利用基于链接分析的PageRank算法计算文档的先验概率,并在自动查询中采用了相关反馈技术.文章还介绍了系统构成的软硬件环境及相关评测数据,给出了对待自动查询和人工查询的不同策略,并通过实验结果的比较,分析了中文信息检索中比较有效的方法,最后给出了系统存在的不足以及今后改进的方向.  相似文献   

9.
中文分词算法在搜索引擎应用中有着广泛的应用空间,且能够增加信息检索的准确性,故而值得予以推广。在此之上,本文简要分析了中文分词算法的作用与中文分词算法在搜索引擎中的难点,并分别从基于字符串匹配分词、基于N元语法分词、基于搜索统计技术等方面,论述了中文分词算法在搜索引擎应用中的运用策略,以此提高大众对中文分词算法的认知水平。  相似文献   

10.
基于p范式模型的检索   总被引:3,自引:0,他引:3  
随着电子文本的大量涌现,人们对信息检索工具提出了更高的要求。本文介绍一种扩展的布尔检索模型及其在中文信息检索系统中的应用,并利用相关反馈技术改善检索系统性能。  相似文献   

11.
In this paper, we propose a rotation-invariant spatial knowledge representation called RS-string. Then we present the string generation algorithm to automatically generate RS-strings for segmented pictures. We also propose the spatial reasoning and similarity retrieval algorithms based on RS-strings. The similarity retrieval algorithm is much more flexible than all previous 2D string representations because our approach can consider every possible view of a query picture. Thus the system does not require the user to provide a query picture which must have the same orientation as that of a database picture. Finally, we provide several examples to demonstrate the capabilities of spatial reasoning and similarity retrieval based on the RS-string representation.  相似文献   

12.
Widely used in data-driven computer animation, motion capture data exhibits its complexity both spatially and temporally. The indexing and retrieval of motion data is a hard task that is not totally solved. In this paper, we present an efficient motion data indexing and retrieval method based on self-organizing map and Smith–Waterman string similarity metric. Existing motion clips are first used to train a self-organizing map and then indexed by the nodes of the map to get the motion strings. The Smith–Waterman algorithm, a local similarity measure method for string comparison, is used in clustering the motion strings. Then the motion motif of each cluster is extracted for the retrieval of example-based query. As an unsupervised learning approach, our method can cluster motion clips automatically without needing to know their motion types. Experiment results on a dataset of various kinds of motion show that the proposed method not only clusters the motion data accurately but also retrieves appropriate motion data efficiently.  相似文献   

13.
模糊检索是以满足汉字字符串的相似程度来实现汉字同音及谐音检索,这种方法区别于传统的同音字典模糊检索法。深入研究了快速模糊检索在大型数据库中的应用。  相似文献   

14.
分词词典是汉语自动分词系统中的一个基本组成部分,其查询速度直接影响到分词系统的处理速度。文章提出并实现了一种用哈希算法和二分查找算法相结合的中文单词查找算法,实验显示,该算法可以实现对字符串的快速查找。  相似文献   

15.
Similarity retrieval of iconic image database   总被引:3,自引:0,他引:3  
The perception of spatial relationships among objects in a picture is one of the important selection criteria to discriminate and retrieve the images in an iconic image database system. The data structure called 2D string, proposed by Chang et al., is adopted to represent symbolic pictures. The 2D string preserves the objects' spatial knowledge embedded in images. Since spatial relationship is a fuzzy concept, the capability of similarity retrieval for the retrieval by subpicture is essential. In this paper, similarity measure based on 2D string longest common subsequence is defined. The algorithm for similarity retrieval is also proposed. Similarity retrieval provides the iconic image database with the distinguishing function different from a conventional database.  相似文献   

16.
基于文本相似度的网页消重策略   总被引:1,自引:0,他引:1  
针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基础上得到网页的相似度。经与相似方法比较,结果表明,该方法减少了时间复杂度,具有较高的查全率和查准率,适于大规模网页消重。  相似文献   

17.
中文智能信息检索中的关键是自然语言处理技术,汉语自动分词技术是中文自然语言处理的基础.基于机械匹配的分词方法简洁、实用,但该方法切分精度不高且无法有效克服切分歧义.针对机械匹配最大匹配算法的应用进行了改进,并将相似串应用于教学资源自然语义查询.  相似文献   

18.
近似字符串匹配是模式匹配研究领域中的一个重要研究方向。压缩后缀数组是字符串匹配、数据压缩等领域广泛使用的索引结构,具有检索速度快和适用广泛的优点。利用压缩后缀数组,提出了适合近似字符串匹配搜索算法的数据结构,并在此基础上提出了一种匹配搜索算法。实验结果表明,相对于现有的算法,提出的算法在小字母表的情况下具有计算优势。  相似文献   

19.
该文对英文字符串、中文字串和中英文混合字符串的切分方法进行研究。首先分析现有的中文、英文切分算法,再提出了一种实用的中英文混合切分算法。对于不同字符串的切分问题进行深入研究,针对不同要求,不同字符串提出不同切分算法和具体实施方法。  相似文献   

20.
讨论音序输入法中的汉语拼音流,实现当前音序输入法中拼音流的切分算法,包括对含中R/N/G拼音流切分难点的解决.拼音流的切分是整句输入的基础,给出算法具体实现所需的数据结构(汉语拼音的声母表与有效的汉语拼音表和音节树),经验证,该算法成功地实现了对拼音流的自动切分.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号