期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

林鸿飞战学刚姚天顺《模式识别与人工智能》2000,13(1)

本文分析是文本处理领域中的重要内容,它可以有效地改进文本检索、文本过滤以及文本摘要的精度.本文简要描述了文本的物理结构和逻辑结构以及文本分析的背景,将潜在语义索引引入文本分析中,提出了基于潜在语义索引的层次分析方法.该方法保证了层次划分的有序性和聚合性,可操作性强,便于解释,并给出了在文本检索、文本过滤和文本摘要中的应用. 相似文献

2.

改进传统文本结构关系图的文本结构分析

梁文婷何中市龙华田春娥《微计算机信息》2009,25(3)

文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本摘要、文本检索以及文本过滤的精度.文中简要描述了传统上使用文本结构关系图分析文本结构的方法并指出其缺点,然后提出改进方法,使经过文本结构分析后的文本更具有有序性和可操作性强,便于解释,不依赖于具体领域.最后通过实验证明,该改进方法是可行的. 相似文献

3.

用文本检索方法实现基于内容的图像检索 总被引：2，自引：0，他引：2

黄斌杨世洪吴钦章《计算机工程与应用》2005,41(8):92-94

利用基于内容的文本检索这项成熟的技术来实现基于内容的图像检索。它不需要进行大量复杂的运算,不仅检索速度快、查准率高,而且能够根据用户感兴趣的区域进行交互式图像检索。主要从实现原理、算法流程和检索实现三方面讨论了这一问题,给出了以基于内容的文本检索、图像映射成文本和文本还原成图像为主要技术的解决方案,最后介绍了一个基于上述设计原理的实例系统。相似文献

4.

隐含语义索引及其在中文文本处理中的应用研究 总被引：33，自引：0，他引：33

周水庚关佶红胡运发《小型微型计算机系统》2001,22(2):239-243

信息检索本质上是语义检索,而传统信息检索系统都是基于独立词索引,因此检索效果并不理想,隐含语义索引是一种新型的信息检索模型,它通过奇异值分析,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度,使得文档之间的语义关系更为明晰。实验和理论结果证实了隐含语义索引能够取得更好的检索效果。本文论述了隐含语义索引的理论基础,研究了隐含语义索引在中文文本处理中的应用,包括中文文本检索、中文文本分类和中文文本聚类等。相似文献

5.

基于向量空间模型的文本过滤系统 总被引：64，自引：0，他引：64

下载免费PDF全文

黄萱菁夏迎炬吴立德《软件学报》2003,14(3):435-442

文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议--文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%. 相似文献

6.

基于邻接矩阵的全文索引模型 总被引：5，自引：0，他引：5

周水庚胡运发关佶红《软件学报》2002,13(10):1933-1942

文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不同的方式实现文本串邻接矩阵,导出了两种基于邻接矩阵的新型全文索引模型,即基于邻接矩阵的倒排文件和基于邻接矩阵的PAT数组.给出了基于新模型的文本查询算法;分析了新模型的存储空间和查询时间的开销,并分别与两种传统索引模型进行了比较.对实际文本库进行了测试以证实新模型的效能.新模型能够以相对于原文较小的空间代价获得较大幅度的查询效率的提高,因此适合于在大规模文本检索系统中应用. 相似文献

7.

基于蚁群算法的文本聚类算法 总被引：3，自引：2，他引：1

下载免费PDF全文

马世霞刘丹贾世杰《计算机工程》2010,36(8):206-207

针对目前文本检索后的相关反馈信息较少用于文本聚类中的问题,根据蚂蚁觅食聚类算法的思想,将文本检索后的相关反馈信息应用到文本聚类过程中,提出一种基于蚁群算法的文本聚类算法。分析簇的结构及其生成过程,论述聚类中簇合并的规则及算法。实验结果表明,该算法具有良好的聚类效果,能有效提高查询的文本召回率。相似文献

8.

基于词典词语量化关系的中文文本分割方法

下载免费PDF全文

钟茂生胡熠刘磊《计算机工程与应用》2008,44(21):25-29

随着Internet网络资源的快速膨胀,海量的非结构化文本处理任务成为巨大的挑战。文本分割作为文本处理的一个重要的预处理步骤,其性能的优劣直接影响信息检索、文本摘要和问答系统等其他任务处理的效果。针对文本分割中需要解决的主题相关性度量和边界划分策略两个根本问题,提出了一种基于词典词语量化关系的句子间相关性度量方法,并建立了一个计算句子之间的间隔点分隔值的数学模型,以实现基于句子层次的中文文本分割。通过三组选自国家汉语语料库的测试语料的实验表明,该方法识别分割边界的平均错误概率■和最低值均好于现有的其他中文文本分割方法。相似文献

9.

基于领域相关词汇提取的特征选择方法

孙麟牛军钰《小型微型计算机系统》2007,28(5):895-899

传统文本分类中的文档表示方法一般基于全文本(Bag-Of-Words)的分析,由于忽略了领域相关的语义特征,无法很好地应用于面向特定领域的文本分类任务.本文提出了一种基于语料库对比领域相关词汇提取的特征选择方法,结合SVM分类器实现了适用于特定领域的文本分类系统,能轻松应用到各个领域.该系统在2005年文本检索会议(TREC,Text REtrieval Conference)的基因领域文本分类任务(Genomics Track Categorization Task)的评测中取得第一名. 相似文献

10.

基于推理网络的文本检索模型

刘树安于大鹏《控制与决策》2001,16(Z1):805-807

在研究现有文本信息检索技术的基础上,设计了基于推理网络的文本检索模型.提出一种改进的推理算法,以实现从文档观察事件到索引词出现事件的推理,使新模型可以更全面地利用文本数据信息.最后通过一个推理网络实例来说明实现推理的数学过程. 相似文献