首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本摘要、文本检索以及文本过滤的精度.文中简要描述了传统上使用文本结构关系图分析文本结构的方法并指出其缺点,然后提出改进方法,使经过文本结构分析后的文本更具有有序性和可操作性强,便于解释,不依赖于具体领域.最后通过实验证明,该改进方法是可行的.  相似文献   

2.
对隐含语义索引模型在中文文本检索中的应用进行分析,证明了隐含语义索引模型通过挖掘文本和词汇之间的隐含关系较好地实现了语艾检索,指出所存在的问题和进一步研究的方向.  相似文献   

3.
隐含语义索引及其在中文文本处理中的应用研究   总被引:33,自引:0,他引:33  
信息检索本质上是语义检索,而传统信息检索系统都是基于独立词索引,因此检索效果并不理想,隐含语义索引是一种新型的信息检索模型,它通过奇异值分析,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度,使得文档之间的语义关系更为明晰。实验和理论结果证实了隐含语义索引能够取得更好的检索效果。本文论述了隐含语义索引的理论基础,研究了隐含语义索引在中文文本处理中的应用,包括中文文本检索、中文文本分类和中文文本聚类等。  相似文献   

4.
基于潜在语义索引的文本浏览机制   总被引:26,自引:1,他引:25  
文本浏览是伴随着因特网上日益增多的在线文本而出现的辅助阅读机制,本文给出了基于潜在语义索引的文本浏览机制。它吸取了潜在语义索引和概念标注的优点,利用潜在语义索引,减少词汇间的“斜交”现象,在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算。利用概念词典将文本特征项按语义分类,给予层次分类以确定的含义。最后,实现以分层概念为基础的信息导航。  相似文献   

5.
中英文双语交叉过滤的逻辑模型   总被引:7,自引:1,他引:6  
文章简要地描述了文本过滤的背景,提出了基于潜在语义索引的中英文双语交叉过滤的逻辑模型。其基本思想是改进双语交叉过滤中基于词汇对译的方法,而是利用双语文本中潜在的语义结构,作为用户模板与文本匹配的基础。将出现的双语词汇和文本映射为语义空间的向量,不必翻译对译词,甚至不需要出现相应的对译词,也能匹配成功,极大地改善了交叉过滤的精度,效果良好。  相似文献   

6.
基于潜在语义索引的Web信息预测采集过滤方法   总被引:6,自引:0,他引:6  
Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向.提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算的基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析、对未知网页的相关性预测来控制信息采集过程.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。  相似文献   

7.
传统的向量空间模型使用关键词来表示文本,但没有考虑关键词的一词多义和多词一义问题.为了解决该问题,提出了一种潜在语义索引和支持向量机相结合的文本分类方法,使用潜在语义索引方法获得原始特征向量的潜在语义结构.实验结果表明,该方法同单独使用支持向量机的方法相比,分类准确率有小幅度的下降,但特征向量获得了大幅度的降维.  相似文献   

8.
基于向量空间模型的文本过滤系统   总被引:64,自引:0,他引:64       下载免费PDF全文
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议--文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%.  相似文献   

9.
文本连贯性分析是计算机辅助评估中的重要内容,是对文本的表达质量进行评估的基础.提出一种将潜在语义分析方法与基于有序聚类的层次分析方法相结合的文本层次结构分析方法,该方法保证了层次划分的有序性,可操作性强,不依赖于具体领域.基本思想是:对于输入文本,首先识别文本物理结构,然后将文本依据主题划分为若干层次,最终获得文本的逻辑结构.实验结果表明,该方法是有效的,其准确率达到74.96%.  相似文献   

10.
图像语义检索的一个有效解决途径是找到图像底层特征与文本语义之间的关联.文中在核方法和图拉普拉斯矩阵的基础上,提出一种相关空间嵌入算法,并利用文本隐性语义索引和图像特征的视觉单词,构造出文本语义空间与图像特征空间这两个异构空间的相关关系,从而找出文本语义与视觉单词间潜在关联,实现图像的语义检索.文中算法把保持数据流形结构的一致性作为一种先验约束,将文本语义空间和图像特征空间中的数据点嵌入到同一个相关空间中.因此,与典型相关分析算法相比,这种相关嵌入映射不仅可揭示不同数据空间之间存在的相关关系,还可在相关空间中保留原始数据分布结构,从而提高算法的可靠性.实验验证文中算法的有效性,为图像语义检索提供一种可行方法.  相似文献   

11.
文本层次分析与文本浏览   总被引:7,自引:2,他引:5  
本文简要描述了文本的物理结构和逻辑结构以及相应的向量空间模型。研制了具有导航机制的文本浏览系统。提出了文本结构分析中的层次分析方法,它采用有序划分层次的方法。并在此基础上,给出了文本结构中各单元的标记信息,由此形成了文本的可视化表示。利用文本、层次、段落的超文本连接,根据浏览的需要,逐级展现文本细节,帮助用户有目的、有选择地浏览文本。最后给出评价的结果。  相似文献   

12.
文本结构分析与基于示例的文本过滤   总被引:13,自引:0,他引:13  
本文简要介绍了文本过滤的背景和发展,提出了基于示例的中文文本过滤模型.其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用本文提出的文本层次分析方法,提取文本特征,形成主题词表示的用户模版(user profile),然后进行了文本过滤,同时引进段落匹配机制,提高过滤效率.通过用户反馈,改进用户模版.  相似文献   

13.
企业中的信息随着企业的不断发展而呈现爆炸式的增长,如何在海量数据中检索需要的文本是企业知识管理中的一个重要的研究课题。把本体引入到企业文本检索中来,以文本的自然段为检索的最小单位,提出了一个信息检索的模型。该模型能从企业文本中抽取信息而建立本体描述符,用本体描述符来表示文本的自然段,从而对检索要求和自然段进行语义匹配,最后得到检索结果。  相似文献   

14.
基于概念的中文文本可视化表示机制   总被引:1,自引:0,他引:1  
为了浏览因特网上日益增多的在线中文文本,本文给出了基于概念的中文文本可视化表示机制,以直观的方式组织和表示文本及文本集,其基本思想是:首先在概念扩充的基础上,进行文本分类,然后,利用本文提出的提出的文本特征抽取方法和摘要方法,获取广西类别、广西、广西正文的标记的信息,通过类别,文本、有选择地浏览文本。  相似文献   

15.
随着信息技术的迅速发展,许多新型的社会媒体相继出现,在给人们带来便利的同时也带来一系列的问题。文本的非规范化使用便是其中最常见的问题之一。文本规范化对于信息抽取、情感分析、等具有重要的意义,通常作为文本分析的第一步。针对文本规范化技术进行简要的总结和归纳。  相似文献   

16.
随着Internet的发展.大量音乐资源在网络上涌现,对音乐资源进行有效检索标识是很有必要的.而摘要的意义显得尤为重要。音乐摘要是文本摘要研究在音乐检索领域的一个比较新的应用。综合使用统计相关原理和文本挖掘相关研究理念,对音乐资源进行一定研究.为音乐检索提供新的参考。  相似文献   

17.
随着Intemet的发展,大量音乐资源在网络上涌现,对音乐资源进行有效检索标识是很有必要的,而摘要的意义显得尤为重要.音乐摘要是文本摘要研究在音乐检索领域的一个比较新的应用.综合使用统计相关原理和文本挖掘相关研究理念,对音乐资源进行一定研究,为音乐检索提供新的参考.  相似文献   

18.
对等计算P2P因其潜在的技术优势和广阔的应用前景,近年来引起工业界和学术界的广泛关注.在重点研究P2P环境下文本共享与检索技术的基础上,实现了一个基于P2P的文本共享和检索系统.该系统通过灵活的节点加入策略、高效的索引机制、有效的路由策略,提供了基于元数据和内容等多种检索功能和友好的人机界面.应用部署证明系统具有很高的检索效率和跨平台数据的交换能力.  相似文献   

19.
Sports video annotation is important for sports video semantic analysis such as event detection and personalization. In this paper, we propose a novel approach for sports video semantic annotation and personalized retrieval. Different from the state of the art sports video analysis methods which heavily rely on audio/visual features, the proposed approach incorporates web-casting text into sports video analysis. Compared with previous approaches, the contributions of our approach include the following. 1) The event detection accuracy is significantly improved due to the incorporation of web-casting text analysis. 2) The proposed approach is able to detect exact event boundary and extract event semantics that are very difficult or impossible to be handled by previous approaches. 3) The proposed method is able to create personalized summary from both general and specific point of view related to particular game, event, player or team according to user's preference. We present the framework of our approach and details of text analysis, video analysis, text/video alignment, and personalized retrieval. The experimental results on event boundary detection in sports video are encouraging and comparable to the manually selected events. The evaluation on personalized retrieval is effective in helping meet users' expectations.  相似文献   

20.
文本信息处理就是通过计算机对文本从表及里、由此及彼的分析处理,不仅仅抽取包含其中的信息,更需要分析推理蕴涵其中的意义。全面地分析探讨了文本信息处理研究现状,概述了文本信息处理的发展历史,将文本信息处理研究归纳为分词研究、文本信息抽取、文本分类、文本信息检索、文本自动摘要等方面,并分别对各领域的研究现状做了概述,指出了各研究领域中存在的问题。讨论了文本信息处理的关键技术问题及其挑战,指出了文本信息处理的远景目标就是文本信息的语义分析、归纳推理和文语转换。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号