首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
刘树安  于大鹏 《控制与决策》2001,16(Z1):805-807
在研究现有文本信息检索技术的基础上,设计了基于推理网络的文本检索模型.提出一种改进的推理算法,以实现从文档观察事件到索引词出现事件的推理,使新模型可以更全面地利用文本数据信息.最后通过一个推理网络实例来说明实现推理的数学过程.  相似文献   

2.
一种基于锚文本的并行检索策略   总被引:1,自引:0,他引:1       下载免费PDF全文
高珊  何婷婷  胡文敏 《计算机工程》2008,34(19):30-31,3
进行Web信息检索时,页面中的锚文本与正文存在较大相关性,多数检索系统忽视了锚文本对页面正文的贡献。该文提出一种提高检索精度的方法,为文档集建立一个基于页面正文的索引和一个基于锚文本的索引,对其采取并行检索策略。实验结果表明,该方法可以有效处理特定结构的网页集。  相似文献   

3.
基于Web中文检索系统SEARCH2000的设计与实现   总被引:3,自引:0,他引:3  
本文详细介绍Search 2000中文检索系统的设计思想及实现方法。与传统的全文检索系统相比,基于WEB的信息检索系统,具有许多全新的特征。页面为半结构化文档、页面通过超链接相互关联、页面的内容覆盖不同应用领域并且拥有大量专有名词和缩略词汇,这些特性成为影响查询精度的主要因素。针对Web的上述特性设计的Search2000全文检索系统,使用智能化的页面相关分析、评分技术,以及高效数据存取、压缩算法和知识库的支持,使其具有使用方便、查询时间短、查询精度高等特点。  相似文献   

4.
随着计算机软硬件技术的进步以及Hypertext模型的出现,使全文检索技术应用普及的可能性变为现实。本文分析了全文检索技术应用于图书情报领域信息管理的意义,并给出了实施全文检索机制的主要步骤和方法。  相似文献   

5.
国际化文字处理综述   总被引:3,自引:0,他引:3  
计算机与不同用户的交互通常必须实现通过多种文字信息的输入/输出以实现,因此操作系统对多种文字的支持程度是其功能性的一个衡量标准。各种文字特征的巨大差异导致现代操作系统的文字处理实现非常复杂。本文总结了操作系统文字处理的范围与内容,包括文本输入与存储,文本处理以及用户交互处理;归纳了通用的文字处理模型和可能采取的技术途径及其优缺点;分析了常用操作系统的文字处理实现;最后展望了文字处理仍面临的挑战。  相似文献   

6.
一种高性能的两类中文文本分类方法   总被引:35,自引:0,他引:35  
提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y,构造二维文本空间,将文本映射为二维空间中的一个点,将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分,以此评估第1步分类结果,若第1步分类可靠,做出分类决策;否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明,两步文本分类方法达到了较高的分类性能,精确率、召回率和F1值分别为97.19%,93.94%和95.54%.  相似文献   

7.
用于信息检索的古文统计分析   总被引:1,自引:1,他引:0  
根据中文古籍信息检索技术的需求,本文在大规模语料库上对古汉语进行了统计分析。首先给出了在信息处理中多个专用语料库的动态知识合并的方法。在此基础上,对三千五百万字的中文古籍语料进行了统计分析,总结出在古汉语中,汉字在高频字上集中分布而在低频字上相当散布,且总体变化成指数递减的规律,并对二元语法进行了分析。然后分别与现代汉语的单字及双字进行比较,得出相应结论,并按照使用频度,把古汉语的汉字进行了分类。最后,这些统计学习到的知识,在中文古籍信息检索系统中得到了实际的应用。  相似文献   

8.
在web文档信息检索中,文档分类、文档过滤的质量一直是影响用户查询结果的关键。这篇论文将通过分析一些典型的权重函数的构造,提出一个基于文档信息空间的权重函数来计算调整文档中词元的权重,使文档的分类和过滤效率更高。  相似文献   

9.
A map of text documents arranged using the Self-Organizing Map (SOM) algorithm (1) is organized in a meaningful manner so that items with similar content appear at nearby locations of the 2-dimensional map display, and (2) clusters the data, resulting in an approximate model of the data distribution in the high-dimensional document space. This article describes how a document map that is automatically organized for browsing and visualization can be successfully utilized also in speeding up document retrieval. Furthermore, experiments on the well-known CISI collection [3] show significantly improved performance compared to Salton's vector space model, measured by average precision (AP) when retrieving a small, fixed number of best documents. Regarding comparison with Latent Semantic Indexing the results are inconclusive. This revised version was published online in August 2006 with corrections to the Cover Date.  相似文献   

10.
针对当前基于文本检索方法的图像目标对象匹配技术无法适应海量图像数据库检索的问题,本文提出一种有效可行的海量图像数据库的检索方法,并给出了该系统的构建框架。用户通过在图像中选择一块区域作为检索的目标对象提交给系统,它将从图像数据库中检索出包含有相同或相似目标对象的图像,将其排序后返回给用户。实验表明,本文提出的方法具有检索准确率高、响应时间短等特点,是一种有效的海量图像数据库检索方法。  相似文献   

11.
基于链接描述文本及其上下文的Web信息检索   总被引:20,自引:0,他引:20  
文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一,由此产生了基于超链接结构的检索技术。描述了链接描述文档的概念,并在此基础上研究链接文本(anchor text)及其上下文信息在检索中的作用。通过使用超过169万篇网页的大规模真实数据集以及TREC 2001提供的相关文档及评价方法进行测试,得到如下结论:首先,链接描述文档对网页主题的概括有高度的精确性,但是对网页内容的描述有极大的不完全性;其次,与传统检索方法相比,使用链接文本在已知网页定位的任务上能够使系统性能提高96%,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能;最后,把基于链接描述文本的方法与传统方法相结合,能够在检索性能上提高近16%。  相似文献   

12.
面向中文文本数据库的信息抽取机制   总被引:2,自引:0,他引:2  
中文文本文件的句子中常包含有一些有价值的结构化数据。本文提出了一种针对中文文本结构化信息的抽取机制;抽取文本中的匹配模式,并将抽取后的匹配模式作为匹配模板放入知识库中,作为知识库中的规则。并在此基础上提出了一种面积文本数据库的一种新的信息查询机制:以知识库中的规则作为基础,查询文本数据库中的数据时,先在知识库中找相应的规则(即匹配模板),然后根据匹配模板在相应的文本数据库中查找相应的数据信息。  相似文献   

13.
一种中文词句的快速检索算法   总被引:1,自引:0,他引:1  
刘国华  程蕾  祈晓园 《计算机工程》2003,29(19):70-71,94
介绍了一种中文词句快速检索算法,该算法将中文文献正文转换成文献中每个汉字的位置索引列表。根据位置索引列表信息能够快速查找出用户关心的某个词句在文献中出现的位置,并将该词句所在的句子或者上下文信息提交给用户。  相似文献   

14.
基于本体的Web文本挖掘与信息检索   总被引:1,自引:0,他引:1       下载免费PDF全文
艾伟  孙四明  张峰 《计算机工程》2010,36(22):75-77
针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。实验结果初步验证了本体模型在Web文本挖掘技术上应用的可行性。  相似文献   

15.
一种支持多语言文本布局方向的文档处理模型   总被引:1,自引:0,他引:1  
文档处理是文字处理的关键组成部分,针对多语言混合排版的需求,本文提出了基于“框”的支持不同方向的多语言文本布局的文档处理模型。该模型把对文本布局方向的处理封装在文档格式化模块中,将多文本布局方向的问题规约为文本布局方向为从左向右(水平)的文档格式化的问题,并设计了多文本布局方向文档格式化的递归算法。该模型可以很好支持包括我国民族文字蒙古文、维吾尔文、藏文在内的各种不同书写方向文字的文本布局。  相似文献   

16.
基于文本集密度的特征选择与权重计算方案   总被引:5,自引:1,他引:5  
在信息检索的向量空间模型中,文本被形式化表示为由词语权重组成的向量。因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题。在这篇论文中,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方法。它是一种使用词对文本集密度的贡献衡量该词的价值的方法。使用这种方法,我们能找出不损失文本有效信息的最小特征词语集,并且创造出更为合理权重计算方案。在文中还用了一种新的衡量权重好坏的标准——元打分法,来证明提出的方法是有效的。  相似文献   

17.
基于单汉字索引的全文检索系统的优化研究   总被引:7,自引:0,他引:7  
对于按照单汉字建立倒排索引的全文检索系统,最需要解决的问题是如何提高其存储效率和运算速度。本文针对此问题提出了以下优化方法:一是利用参数化的Golomb编码对倒排文件进行压缩;二是对求集合交集的逻辑乘算法进行改进;三是运用并行计算和双缓冲技术。实验结果表明,经过优化后的单汉字全文检索系统已达到实用化的程度。  相似文献   

18.
面向文本检索的语义计算   总被引:14,自引:1,他引:14  
赵军  金千里  徐波 《计算机学报》2005,28(12):2068-2078
随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高.作为对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一.将语义计算技术应用于文本检索,是智能检索的重要方向.文中在文本检索的两个关键技术(“标引”和“相似度计算”)中引入语义计算技术,用浅层语义来指导检索过程,提高检索准确率.针对“标引”技术,提出了语义树模型;针对“相似度计算”,基于语义张量的概念,结合自然语言处理的一些技术,提出三个可计算的窗口模型来近似语义张量的核心思想.以上工作在一定程度上实现了语义计算的功能.利用TREC数据集进行的评测表明,采用了语义计算技术后,文本检索的准确率可以提高10%左右.  相似文献   

19.
个性化信息检索使得搜索引擎能满足不目的,背景的用户的查询需求,该文主要探讨了个性化信息检索中常用的文本分类算法。  相似文献   

20.
第六届中国健康信息处理会议(China conference on Health Information Processing,CHIP 2020)组织了中文医疗信息处理方面的6个评测任务,其中任务2为中文医学文本实体关系抽取任务,该任务的主要目标为自动抽取中文医学文本中的实体关系三元组。共有174支队伍参加了评测任务,最终17支队伍提交了42组结果,该任务以微平均F1值为最终评估标准,提交结果中F1最高值达0.648 6。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号