共查询到20条相似文献,搜索用时 15 毫秒
1.
在研究现有文本信息检索技术的基础上,设计了基于推理网络的文本检索模型.提出一种改进的推理算法,以实现从文档观察事件到索引词出现事件的推理,使新模型可以更全面地利用文本数据信息.最后通过一个推理网络实例来说明实现推理的数学过程. 相似文献
2.
3.
基于Web中文检索系统SEARCH2000的设计与实现 总被引:3,自引:0,他引:3
本文详细介绍Search 2000中文检索系统的设计思想及实现方法。与传统的全文检索系统相比,基于WEB的信息检索系统,具有许多全新的特征。页面为半结构化文档、页面通过超链接相互关联、页面的内容覆盖不同应用领域并且拥有大量专有名词和缩略词汇,这些特性成为影响查询精度的主要因素。针对Web的上述特性设计的Search2000全文检索系统,使用智能化的页面相关分析、评分技术,以及高效数据存取、压缩算法和知识库的支持,使其具有使用方便、查询时间短、查询精度高等特点。 相似文献
4.
崔国华 《计算机与数字工程》2000,28(2):43-45
随着计算机软硬件技术的进步以及Hypertext模型的出现,使全文检索技术应用普及的可能性变为现实。本文分析了全文检索技术应用于图书情报领域信息管理的意义,并给出了实施全文检索机制的主要步骤和方法。 相似文献
5.
6.
一种高性能的两类中文文本分类方法 总被引:35,自引:0,他引:35
提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y,构造二维文本空间,将文本映射为二维空间中的一个点,将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分,以此评估第1步分类结果,若第1步分类可靠,做出分类决策;否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明,两步文本分类方法达到了较高的分类性能,精确率、召回率和F1值分别为97.19%,93.94%和95.54%. 相似文献
7.
用于信息检索的古文统计分析 总被引:1,自引:1,他引:0
根据中文古籍信息检索技术的需求,本文在大规模语料库上对古汉语进行了统计分析。首先给出了在信息处理中多个专用语料库的动态知识合并的方法。在此基础上,对三千五百万字的中文古籍语料进行了统计分析,总结出在古汉语中,汉字在高频字上集中分布而在低频字上相当散布,且总体变化成指数递减的规律,并对二元语法进行了分析。然后分别与现代汉语的单字及双字进行比较,得出相应结论,并按照使用频度,把古汉语的汉字进行了分类。最后,这些统计学习到的知识,在中文古籍信息检索系统中得到了实际的应用。 相似文献
8.
在web文档信息检索中,文档分类、文档过滤的质量一直是影响用户查询结果的关键。这篇论文将通过分析一些典型的权重函数的构造,提出一个基于文档信息空间的权重函数来计算调整文档中词元的权重,使文档的分类和过滤效率更高。 相似文献
9.
A map of text documents arranged using the Self-Organizing Map (SOM) algorithm (1) is organized in a meaningful manner so
that items with similar content appear at nearby locations of the 2-dimensional map display, and (2) clusters the data, resulting
in an approximate model of the data distribution in the high-dimensional document space. This article describes how a document
map that is automatically organized for browsing and visualization can be successfully utilized also in speeding up document
retrieval. Furthermore, experiments on the well-known CISI collection [3] show significantly improved performance compared
to Salton's vector space model, measured by average precision (AP) when retrieving a small, fixed number of best documents.
Regarding comparison with Latent Semantic Indexing the results are inconclusive.
This revised version was published online in August 2006 with corrections to the Cover Date. 相似文献
10.
针对当前基于文本检索方法的图像目标对象匹配技术无法适应海量图像数据库检索的问题,本文提出一种有效可行的海量图像数据库的检索方法,并给出了该系统的构建框架。用户通过在图像中选择一块区域作为检索的目标对象提交给系统,它将从图像数据库中检索出包含有相同或相似目标对象的图像,将其排序后返回给用户。实验表明,本文提出的方法具有检索准确率高、响应时间短等特点,是一种有效的海量图像数据库检索方法。 相似文献
11.
基于链接描述文本及其上下文的Web信息检索 总被引:20,自引:0,他引:20
文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一,由此产生了基于超链接结构的检索技术。描述了链接描述文档的概念,并在此基础上研究链接文本(anchor text)及其上下文信息在检索中的作用。通过使用超过169万篇网页的大规模真实数据集以及TREC 2001提供的相关文档及评价方法进行测试,得到如下结论:首先,链接描述文档对网页主题的概括有高度的精确性,但是对网页内容的描述有极大的不完全性;其次,与传统检索方法相比,使用链接文本在已知网页定位的任务上能够使系统性能提高96%,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能;最后,把基于链接描述文本的方法与传统方法相结合,能够在检索性能上提高近16%。 相似文献
12.
面向中文文本数据库的信息抽取机制 总被引:2,自引:0,他引:2
中文文本文件的句子中常包含有一些有价值的结构化数据。本文提出了一种针对中文文本结构化信息的抽取机制;抽取文本中的匹配模式,并将抽取后的匹配模式作为匹配模板放入知识库中,作为知识库中的规则。并在此基础上提出了一种面积文本数据库的一种新的信息查询机制:以知识库中的规则作为基础,查询文本数据库中的数据时,先在知识库中找相应的规则(即匹配模板),然后根据匹配模板在相应的文本数据库中查找相应的数据信息。 相似文献
13.
14.
15.
一种支持多语言文本布局方向的文档处理模型 总被引:1,自引:0,他引:1
文档处理是文字处理的关键组成部分,针对多语言混合排版的需求,本文提出了基于“框”的支持不同方向的多语言文本布局的文档处理模型。该模型把对文本布局方向的处理封装在文档格式化模块中,将多文本布局方向的问题规约为文本布局方向为从左向右(水平)的文档格式化的问题,并设计了多文本布局方向文档格式化的递归算法。该模型可以很好支持包括我国民族文字蒙古文、维吾尔文、藏文在内的各种不同书写方向文字的文本布局。 相似文献
16.
基于文本集密度的特征选择与权重计算方案 总被引:5,自引:1,他引:5
在信息检索的向量空间模型中,文本被形式化表示为由词语权重组成的向量。因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题。在这篇论文中,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方法。它是一种使用词对文本集密度的贡献衡量该词的价值的方法。使用这种方法,我们能找出不损失文本有效信息的最小特征词语集,并且创造出更为合理权重计算方案。在文中还用了一种新的衡量权重好坏的标准——元打分法,来证明提出的方法是有效的。 相似文献
17.
基于单汉字索引的全文检索系统的优化研究 总被引:7,自引:0,他引:7
对于按照单汉字建立倒排索引的全文检索系统,最需要解决的问题是如何提高其存储效率和运算速度。本文针对此问题提出了以下优化方法:一是利用参数化的Golomb编码对倒排文件进行压缩;二是对求集合交集的逻辑乘算法进行改进;三是运用并行计算和双缓冲技术。实验结果表明,经过优化后的单汉字全文检索系统已达到实用化的程度。 相似文献
18.
面向文本检索的语义计算 总被引:14,自引:1,他引:14
随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高.作为对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一.将语义计算技术应用于文本检索,是智能检索的重要方向.文中在文本检索的两个关键技术(“标引”和“相似度计算”)中引入语义计算技术,用浅层语义来指导检索过程,提高检索准确率.针对“标引”技术,提出了语义树模型;针对“相似度计算”,基于语义张量的概念,结合自然语言处理的一些技术,提出三个可计算的窗口模型来近似语义张量的核心思想.以上工作在一定程度上实现了语义计算的功能.利用TREC数据集进行的评测表明,采用了语义计算技术后,文本检索的准确率可以提高10%左右. 相似文献
19.
个性化信息检索使得搜索引擎能满足不目的,背景的用户的查询需求,该文主要探讨了个性化信息检索中常用的文本分类算法。 相似文献
20.
第六届中国健康信息处理会议(China conference on Health Information Processing,CHIP 2020)组织了中文医疗信息处理方面的6个评测任务,其中任务2为中文医学文本实体关系抽取任务,该任务的主要目标为自动抽取中文医学文本中的实体关系三元组。共有174支队伍参加了评测任务,最终17支队伍提交了42组结果,该任务以微平均F1值为最终评估标准,提交结果中F1最高值达0.648 6。 相似文献