首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
一种通过内容和结构查询文档数据库的方法   总被引:4,自引:0,他引:4       下载免费PDF全文
文档是有一定逻辑结构的,标题、章节、段落等这些概念是文档的内在逻辑.不同的用户对文档的检索,有不同的需求,检索系统如何提供有意义的信息,一直是研究的中心任务.结合文档的结构和内容,对结构化文件的检索,提出了一种新的计算相似度的方法.这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节.基于这种方法实现了一个问题回答系统,测试集是微软的百科全书Encarta,通过与传统方法实验比较,证明通过这种方法检索的文章片断更合理、更有效.  相似文献   

2.
2005年度863信息检索评测方法研究和实施   总被引:1,自引:0,他引:1  
本次863中文信息检索评测的目的是检测互联网环境下大规模数据的中文信息检索技术的研究现状和系统有效性,中文与接口技术评测组综合考虑了目前信息检索面临的难点以及中文信息检索具有的特点设计了本次信息检索评测,本文详细描述了本次评测的组织过程,包括查询条件设计,语料库情况,标准答案查找方法以及评价指标和评测软件的介绍,通过对参评队伍的结果数据进行分析并结合查询条件的类型,本文还讨论了现有检索技术的优点以及存在的不足.  相似文献   

3.
一种基于语境的中文分词方法研究   总被引:4,自引:0,他引:4  
汉语不同于英语,词之间没有间隔标记.而汉语分词是文本分析的第一步,且存在歧义切分,因此分词问题成为汉语分析的首要难题,通过中文切分过程的本质分析,推导并提出基于马尔可夫链的语境中文切分理论.进而提出一种语境中文分词方法.该方法建立在词法和句法基础上,从语境角度分析歧义字段,提高分词准确率.  相似文献   

4.
本文总结和分析了常用的中文分词方法,并提出了一种基于上下文的分词算法。算法的原理是在文档中抽取最长重复字串,进而得到索引项。这种分词方法使得分词更加简单准确。  相似文献   

5.
分析了企业级搜索引擎应具有的功能和总体架构,研究了Lucene的系统结构及检索原理,提出了统一处理html、pdf、word等多种常用文档的思路。针对中文特点设计搜索引擎的构建技术,包括从源数据采集、文档解析与分词、索引器、信息检索、结果排序的全过程,基于Lucene软件包实现了一个原型系统,取得了较好的搜索效果。  相似文献   

6.
《互联网周刊》2005,(33):73-73
北京拓尔思(TRS)信息技术有限公司是国内最早涉足非结构化数据管理的企业,是中文信息检索第一品牌,TRS产品占有全国70%以上的非结构化数据库市场;同时TRS也是中文内容管理技术应用的领导者,其系列内容管理软件覆盖内容全过程管理,适用于政府机构、新闻媒体  相似文献   

7.
利用上正文信息解决汉语自动分词中的组合型歧义   总被引:3,自引:0,他引:3  
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与Word Sense Disambiguation(WSD)相等价的问题。文章借鉴了WSD研究了广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验 定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。  相似文献   

8.
本文在分析XML(eXtensible Markup Language,可扩展标记语言)组成特点的基础上,以SQL Server2000应用为例,讨论了XML在信息存储和检索应用中的具体实现。  相似文献   

9.
首先说明了分词在中文信息处理中的作用,然后介绍了分词系统中的关键技术。提出了一种基于有向图的中文分词算法,该算法首先构造中文分词有向图,然后计算中文分词有向图中所有可能的切分路径,最后利用了最少分词原则、汉字之间的互信息和词语的频率等信息给中文分词有向图中的每条切分路径打分,分数最高的路径就对应正确的切分结果。开放测试结果表明分词精确率可达90%以上。  相似文献   

10.
利用上下文信息解决汉语自动分词中的组合型歧义   总被引:15,自引:2,他引:15  
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。  相似文献   

11.
川藏公路西藏段地质灾害分布密度大、爆发频率高、规模大、危害程度高。在川藏公路西藏段开展灾害信息系统建设, 不仅对对灾害的治理、监测以及改选线等都具有重要意义, 对保障公路以后的正常运营也具有重要作用。介绍了基于SuperMap GIS 组件, 设计开发的川藏公路灾害信息系统, 能够辅助设计人员清晰、快捷地了解沿线公路灾害的气候背景、灾害的空间分布和治理情况。  相似文献   

12.
计算机信息存储技术   总被引:1,自引:0,他引:1       下载免费PDF全文
本文着重介绍信息存储技术的几个重要方面  相似文献   

13.
一种基于信息熵的中文高频词抽取算法   总被引:9,自引:0,他引:9  
任禾  曾隽芳 《中文信息学报》2006,20(5):42-43,90
为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。  相似文献   

14.
以广西大厂锡矿山矿区为范例,在VB环境下进行组件式GIS二次开发,建立了金属矿山地质灾害信息管理系统,对地质灾害信息进行方便、快速、有效的管理。解决了我国金属矿山以往普遍采用的人工记录、档案管理模式中的管理不便、使用不便的问题。便于发现地质灾害与其他因素的内在联系,总结灾害发生的规律,对矿山的防灾、减灾以及灾害损失评估具有重要意义。  相似文献   

15.
以广西大厂锡矿山矿区为范例,在VB环境下进行组件式GIS二次开发,建立了金属矿山地质灾害信息管理系统,对地质灾害信息进行方便、快速、有效的管理.解决了我国金属矿山以往普遍采用的人工记录、档案管理模式中的管理不便、使用不便的问题.便于发现地质灾害与其他因素的内在联系,总结灾害发生的规律,对矿山的防灾、减灾以及灾害损失评估具有重要意义.  相似文献   

16.
在过去的几十年里,互联网技术的发展和普及推动人类进入了数字信息时代,互联网已成为人类生活的重要组成部分。随着数字化生活方式的到来,人们每时每刻都在产生大规模的数字信息,如何将这些信息进行便捷有效的存储是个必须面对的问题。针对数据存储面临的种种问题,该文从现有的存储方式和存储介质出发,对当前存储领域进行深入研究,分析了 DNA 作为未来大数据存储介质的优势,以及 DNA 存储的核心技术和潜在的应用前景。另外,该文通过对 DNA 信息存储的核心技术进行剖析和讨论,提出了未来 DNA 信息存储发展的趋势和见解,以期对 DNA 信息存储发展提供新的思路。  相似文献   

17.
网络舆情热点信息自动发现方法   总被引:5,自引:0,他引:5       下载免费PDF全文
根据公共安全网络舆情研究的需求,将中文分词技术应用于突发事件应急管理中,提出基于ICTCLAS分词技术的网络舆情热点信息的自动发现方法。该方法读入新闻文本并进行分词和词频统计,从词频表中去除停用词,合并多单位关键词得到突发事件热点信息关键词列表,对网络信息及时进行检索,为突发事件应急决策提供技术支持。通过1个突发事件的实例验证了该方法的实用性和可靠性。  相似文献   

18.
刘杨奕  张轶  刘凯 《集成技术》2024,13(3):25-38
作为新一代信息存储介质,DNA 具有高信息密度和长期保存能力,有望解决全球数据存储介质耗竭的问题。但目前 DNA 信息存储技术的发展主要围绕信息“冷存储”开展,这使得存储过程中出现修改、更新、删除、销毁等需求时束手无策。该文从“冷存储”技术的现状出发,通过归纳总结 DNA 信息存储介质难以实现“热存储”应用的原因,解析用于信息处理功能的一系列“热存储”技术,包括加密销毁、重写再生、擦除恢复、运算记录等,详细论证 DNA 介质用作信息处理载体的可行性与有效性,分析各技术之间的关联性和挑战性,以期为 DNA 存储技术低能耗、高精准、高效率、高安全性的应用奠定基础,并推动新一代智能型信息存储介质和信息处理系统的发展。  相似文献   

19.
随着互联网Web 2.0技术的发展和医疗卫生信息数据的急剧增加,传统关系型数据库针对医疗海量大数据已出现存储效率低、高并发读写性能差、弹性存储扩展和数据管理困难等问题。研究采用非关系型数据库技术作为传统关系型数据库的补充,以模式自由的方式,设计具有海量大数据高效存储、高并发读写、易扩展、低成本等特点的医疗卫生信息存储架构,并阐述TYKY cNosql云数据库的关键技术和应用效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号