首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 500 毫秒
1.
基于潜在语义索引的文本分析方法   总被引:1,自引:0,他引:1  
本文分析是文本处理领域中的重要内容,它可以有效地改进文本检索、文本过滤以及文本摘要的精度.本文简要描述了文本的物理结构和逻辑结构以及文本分析的背景,将潜在语义索引引入文本分析中,提出了基于潜在语义索引的层次分析方法.该方法保证了层次划分的有序性和聚合性,可操作性强,便于解释,并给出了在文本检索、文本过滤和文本摘要中的应用.  相似文献   

2.
文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本摘要、文本检索以及文本过滤的精度.文中简要描述了传统上使用文本结构关系图分析文本结构的方法并指出其缺点,然后提出改进方法,使经过文本结构分析后的文本更具有有序性和可操作性强,便于解释,不依赖于具体领域.最后通过实验证明,该改进方法是可行的.  相似文献   

3.
用文本检索方法实现基于内容的图像检索   总被引:2,自引:0,他引:2  
利用基于内容的文本检索这项成熟的技术来实现基于内容的图像检索。它不需要进行大量复杂的运算,不仅检索速度快、查准率高,而且能够根据用户感兴趣的区域进行交互式图像检索。主要从实现原理、算法流程和检索实现三方面讨论了这一问题,给出了以基于内容的文本检索、图像映射成文本和文本还原成图像为主要技术的解决方案,最后介绍了一个基于上述设计原理的实例系统。  相似文献   

4.
隐含语义索引及其在中文文本处理中的应用研究   总被引:33,自引:0,他引:33  
信息检索本质上是语义检索,而传统信息检索系统都是基于独立词索引,因此检索效果并不理想,隐含语义索引是一种新型的信息检索模型,它通过奇异值分析,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度,使得文档之间的语义关系更为明晰。实验和理论结果证实了隐含语义索引能够取得更好的检索效果。本文论述了隐含语义索引的理论基础,研究了隐含语义索引在中文文本处理中的应用,包括中文文本检索、中文文本分类和中文文本聚类等。  相似文献   

5.
基于向量空间模型的文本过滤系统   总被引:64,自引:0,他引:64       下载免费PDF全文
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议--文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%.  相似文献   

6.
基于邻接矩阵的全文索引模型   总被引:5,自引:0,他引:5  
周水庚  胡运发  关佶红 《软件学报》2002,13(10):1933-1942
文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不同的方式实现文本串邻接矩阵,导出了两种基于邻接矩阵的新型全文索引模型,即基于邻接矩阵的倒排文件和基于邻接矩阵的PAT数组.给出了基于新模型的文本查询算法;分析了新模型的存储空间和查询时间的开销,并分别与两种传统索引模型进行了比较.对实际文本库进行了测试以证实新模型的效能.新模型能够以相对于原文较小的空间代价获得较大幅度的查询效率的提高,因此适合于在大规模文本检索系统中应用.  相似文献   

7.
基于蚁群算法的文本聚类算法   总被引:3,自引:2,他引:1       下载免费PDF全文
针对目前文本检索后的相关反馈信息较少用于文本聚类中的问题,根据蚂蚁觅食聚类算法的思想,将文本检索后的相关反馈信息应用到文本聚类过程中,提出一种基于蚁群算法的文本聚类算法。分析簇的结构及其生成过程,论述聚类中簇合并的规则及算法。实验结果表明,该算法具有良好的聚类效果,能有效提高查询的文本召回率。  相似文献   

8.
随着Internet网络资源的快速膨胀,海量的非结构化文本处理任务成为巨大的挑战。文本分割作为文本处理的一个重要的预处理步骤,其性能的优劣直接影响信息检索、文本摘要和问答系统等其他任务处理的效果。针对文本分割中需要解决的主题相关性度量和边界划分策略两个根本问题,提出了一种基于词典词语量化关系的句子间相关性度量方法,并建立了一个计算句子之间的间隔点分隔值的数学模型,以实现基于句子层次的中文文本分割。通过三组选自国家汉语语料库的测试语料的实验表明,该方法识别分割边界的平均错误概率■和最低值均好于现有的其他中文文本分割方法。  相似文献   

9.
传统文本分类中的文档表示方法一般基于全文本(Bag-Of-Words)的分析,由于忽略了领域相关的语义特征,无法很好地应用于面向特定领域的文本分类任务.本文提出了一种基于语料库对比领域相关词汇提取的特征选择方法,结合SVM分类器实现了适用于特定领域的文本分类系统,能轻松应用到各个领域.该系统在2005年文本检索会议(TREC,Text REtrieval Conference)的基因领域文本分类任务(Genomics Track Categorization Task)的评测中取得第一名.  相似文献   

10.
刘树安  于大鹏 《控制与决策》2001,16(Z1):805-807
在研究现有文本信息检索技术的基础上,设计了基于推理网络的文本检索模型.提出一种改进的推理算法,以实现从文档观察事件到索引词出现事件的推理,使新模型可以更全面地利用文本数据信息.最后通过一个推理网络实例来说明实现推理的数学过程.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号