首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
基于概念空间的文本语义索引   总被引:6,自引:0,他引:6  
1 引言据统计,在现今的联机存储信息中,80%以上的信息以文本的形式存在。信息的多元化、复杂化,致使信息的自动索引成为急需解决的问题。本文研究的内容是建立一个基于概念空间的文本语义索引。目前的文本索引都是建立在文本空间,或关键词空间上的,而建立在概念空间上的索引具有条理清晰、人机界面友好、符合通常检索习惯等许多优势,这也是文本语义索引发展的方向。另外.在建立文本索引的过程中,国内外大多使用Hopfield神经网络联想的方法,本文首次使用直接聚类法代替了Hopfield神经网络联想功能,这样使得索引具有很好的可扩展性。基于语义关联度的文本索引可以广泛应用于Internet搜索引擎、数字图书馆、电子商务等众多领域中。建立文本索引的过程主要有以下几部分: 1)对文档分类,建立文档的概念空间,在概念空间的层次上组织文档并确定文档中出现的关键词。  相似文献   

3.
基于潜在语义索引的文本浏览机制   总被引:26,自引:1,他引:25  
文本浏览是伴随着因特网上日益增多的在线文本而出现的辅助阅读机制,本文给出了基于潜在语义索引的文本浏览机制。它吸取了潜在语义索引和概念标注的优点,利用潜在语义索引,减少词汇间的“斜交”现象,在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算。利用概念词典将文本特征项按语义分类,给予层次分类以确定的含义。最后,实现以分层概念为基础的信息导航。  相似文献   

4.
提出一种改进的基于潜在语义索引的文本聚类算法。算法引入潜在语义索引理论,改进传统的SOM算法。用潜在语义索引理论表示文本特征向量,挖掘文本中词与词之间隐藏的语义结构关系,从而消除词语之间的相关性,实现特征向量的降维。改进传统的SOM算法的局限性,准确给出聚类类别数目的值。实验结果表明,本算法的聚类效果更好,聚类时间更少。  相似文献   

5.
基于潜在语义索引和句子聚类的中文自动文摘   总被引:2,自引:0,他引:2  
自动文摘是自然语言处理领域的一项重要的研究课题.提出一种基于潜在语义索引和句子聚类的中文自动文摘方法.该方法的特色在于:使用潜在语义索引计算句子的相似度,并将层次聚类算法和K-中心聚类算法相结合进行句子聚类,这样提高了句子相似度计算和主题划分的准确性,有利于生成的文摘在全面覆盖文档主题的同时减少自身的冗余.实验结果验证了该文提出的方法的有效性,对比传统的基于聚类的自动文摘方法,该方法生成的文摘质量获得了显著的提高.  相似文献   

6.
一类规范文本篇章结构的自动标引   总被引:2,自引:1,他引:2  
本文通过对汉语文本中标题和段的级、标题的型等概念的描述与分析,讨论了汉语文本篇章结构的标引问题,提出了规范文本的概念,并给出了规范文本篇章结构的一种标记方法,在此基础上,讨论并实现了规范文本篇章结构的自动标引,给出了标引算法。  相似文献   

7.
《Real》1999,5(4):231-241
In order to provide sophisticated access methods to the contents of video servers, it is necessary to automatically process and represent each video through a number of visual indexes. We focus on two tasks, namely the hierarchical representation of a video as a sequence of uniform segments (shots), and the characterization of each shot by a vector describing the camera motion parameters. For the first task we use a Bayesian classification approach to detecting scene cuts by analysing motion vectors. Adaptability to different compression qualities is achieved by learning different classification masks. For the second task, the optical flow is processed in order to distinguish between stationary and moving shots. A least-squares fitting procedure determines the pan/tilt/zoom camera parameters within shots that present regular motion. Each shot is then indexed by a vector representing the dominant motion components and the type of motion. In order to maximize processing speed, all techniques directly process and analyse MPEG-1 motion vectors, without the need for video decompression. An overall processing rate of 59 frames/s is achieved on software. The successful classification performance, evaluated on various news video clips for a total of 61 023 frames, attains 97.7% for the shot segmentation, 88.4% for the stationary vs. moving shot classification, and 94.7% for the detailed camera motion characterization.  相似文献   

8.
医学文本相似性问题是医学文本挖掘中的重要内容,如何能够快速计算出大数据量下的医学文本的相似性情况是医学文本相似性计算的重点.针对基于传统余弦公式医学文本相似性分析算法在性能上的缺陷,提出了一种基于全文索引技术与余弦公式医学文本相似性分析算法,对医学文本相似性进行分析.采用全文索引技术对医学文本数据相关关键词进行索引,并根据若干关键词在索引中检索出部分数据,从而减少计算复杂度,提高效率.实验表明,该方法比基于传统余弦公式医学文本相似性分析算法具有更优的性能.  相似文献   

9.
基于单汉字索引的全文检索系统的优化研究   总被引:7,自引:0,他引:7  
对于按照单汉字建立倒排索引的全文检索系统,最需要解决的问题是如何提高其存储效率和运算速度。本文针对此问题提出了以下优化方法:一是利用参数化的Golomb编码对倒排文件进行压缩;二是对求集合交集的逻辑乘算法进行改进;三是运用并行计算和双缓冲技术。实验结果表明,经过优化后的单汉字全文检索系统已达到实用化的程度。  相似文献   

10.
11.
汉语文本形式结构分析及其标引算法   总被引:3,自引:0,他引:3  
单永明 《中文信息学报》2002,16(2):14-19,26
本文从形式化的角度讨论了汉语文本的形式结构及有关的基本概念,给出了文本的标题、子标题、段落及其层次结构的一种划分与标记方法,提出了规范的与准规范的文本等概念,并以此为基础讨论了文本形式结构的标引问题,给出了两个标引算法。本文阐明的方法和结果对汉语文本的全文文本标引及结构化分析具有直接的现实意义。  相似文献   

12.
13.
特征文件索引、时间戳排序技术是数据库技术研究方面的两个重要课题,前者通常用于支持文本数据的索引和检索操作,后者为实现数据库并发控制的两个基本方法之一。本文主要讨论面向文本数据库管理系统(FIMS)基于索引时间戳概念的文本对象索引模型的形式化描述、检索相关性计算及特征文件系统逻辑设计等问题。  相似文献   

14.
文章采用基于算术编码的压缩方法对文本图像进行无损压缩和传送,进而提出基于最小二乘法灰度插值的压缩文本图像的恢复算法,它将高度结构化的灰度图像分解为多个线性模型,估计出模型参数,从而重构出灰度文本图像,明显改善了屏幕浏览的视觉效果。  相似文献   

15.
In 1994, the Andrew W. Mellon Foundation funded a joint project undertaken by the Center for Research Libraries (CRL) and the Latin American Microfilm Project (LAMP) to scan and index over three-hundred thousand pages of microfilmed Brazilian Government Documents for the Internet. Due to the collection size, format, language and poor physical condition of the text, entering this overwhelmingly textual collection as full-text was prohibitively expensive. Instead the documents were scanned as images, thereby maintaining the intellectual content of the collection, but losing the dynamic searching capabilities inherent in full-text databases. A combination of indexing approaches was used to provide access to these documents. Indexing (table-of-contents, pagination and subject indexes) found in the documents were recreated to give users access to the documents. A controlled vocabulary was established to index a portion of the database. The factors of costs, user feedback and available technologies all influenced the choices of the five indexes ultimately utilized. This paper will describe and comment on the strengths and weaknesses of the various indexing approaches taken to access the images within this database.  相似文献   

16.
基于多种群的强者进化遗传算法   总被引:1,自引:0,他引:1  
针对简单遗传算法存在的问题,提出了一种基于多个种群的强者进化遗传算法SEGA。该算法首先利用多个异构子种群并行进化的结果初步确定较好解(强者),然后按照新的强者变异算子进一步寻找最优解。仿真结果表明,该算法能够提高收敛的速度和稳定性。  相似文献   

17.
基于XML的信息检索技术   总被引:1,自引:1,他引:1  
传统的信息检索方法无法为用户准确地提供所需的资料,这主要是由于传统的HTML网页结构上的缺陷造成的。文中通过比较HTML文档和XML文档在结构和语义上的差异,阐述了XML文档在信息检索技术中的优势和XML文档必将成为新一代网页模式的趋势。目前已经有很多权威编程工具和数据库支持从XML文档中抽取信息,越来越多的软件提供XML接口,文中以Microsoft公司的.NETFramework为例,介绍了如何从XML文档中检索信息。试验证明基于XML的信息检索技术较好地解决了Internet上资料获取的困难。  相似文献   

18.
文本聚类是聚类的一个重要研究分支,在文本处理领域中有着广泛的应用。在描述聚类特征树与动态索引树的文本聚类方法后,将原动态索引树文本聚类方法中的合并阀值由单一线性依赖关系修改为依赖于聚类节点半径值。实验证明,改进后的算法在聚类结果精确率与聚类时间上都有明显提高。  相似文献   

19.
压缩感知理论是近年来信号处理领域诞生的一种新的信号处理理论。相较于传统的奈奎斯特采样定率,压缩感知理论采样数据量少,节省了后续处理时间和存储空间,这使其在信号处理领域有着广阔的应用前景。首先讨论了应用压缩感知理论的三个关键问题:信号稀疏表示、随机测量矩阵设计、信号重构算法,初步研究了压缩感知理论在图像压缩技术中的应用,给出了在不同压缩率下的重构图像和PSNR。计算机模拟结果表明了理论的可行性。  相似文献   

20.
传统的信息检索方法无法为用户准确地提供所需的资料,这主要是由于传统的HTML网页结构上的缺陷造成的.文中通过比较HTML文档和XML文档在结构和语义上的差异,阐述了XML文档在信息检索技术中的优势和XML文档必将成为新一代网页模式的趋势.目前已经有很多权威编程工具和数据库支持从XML文档中抽取信息,越来越多的软件提供XML接口,文中以Microft公司的.NET Framework为例,介绍了如何从XML文档中检索信息.试验证明基于XML的信息检索技术较好地解决了Internet上资料获取的困难.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号