共查询到19条相似文献,搜索用时 62 毫秒
1.
文档是有一定逻辑结构的,标题、章节、段落等这些概念是文档的内在逻辑.不同的用户对文档的检索,有不同的需求,检索系统如何提供有意义的信息,一直是研究的中心任务.结合文档的结构和内容,对结构化文件的检索,提出了一种新的计算相似度的方法.这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节.基于这种方法实现了一个问题回答系统,测试集是微软的百科全书Encarta,通过与传统方法实验比较,证明通过这种方法检索的文章片断更合理、更有效. 相似文献
2.
3.
一种基于语境的中文分词方法研究 总被引:4,自引:0,他引:4
汉语不同于英语,词之间没有间隔标记.而汉语分词是文本分析的第一步,且存在歧义切分,因此分词问题成为汉语分析的首要难题,通过中文切分过程的本质分析,推导并提出基于马尔可夫链的语境中文切分理论.进而提出一种语境中文分词方法.该方法建立在词法和句法基础上,从语境角度分析歧义字段,提高分词准确率. 相似文献
4.
本文总结和分析了常用的中文分词方法,并提出了一种基于上下文的分词算法。算法的原理是在文档中抽取最长重复字串,进而得到索引项。这种分词方法使得分词更加简单准确。 相似文献
5.
李海丰 《数字社区&智能家居》2009,5(2)
分析了企业级搜索引擎应具有的功能和总体架构,研究了Lucene的系统结构及检索原理,提出了统一处理html、pdf、word等多种常用文档的思路。针对中文特点设计搜索引擎的构建技术,包括从源数据采集、文档解析与分词、索引器、信息检索、结果排序的全过程,基于Lucene软件包实现了一个原型系统,取得了较好的搜索效果。 相似文献
6.
7.
利用上正文信息解决汉语自动分词中的组合型歧义 总被引:3,自引:0,他引:3
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与Word Sense Disambiguation(WSD)相等价的问题。文章借鉴了WSD研究了广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验 定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。 相似文献
8.
本文在分析XML(eXtensible Markup Language,可扩展标记语言)组成特点的基础上,以SQL Server2000应用为例,讨论了XML在信息存储和检索应用中的具体实现。 相似文献
9.
张培颖 《计算机工程与应用》2009,45(22):123-125
首先说明了分词在中文信息处理中的作用,然后介绍了分词系统中的关键技术。提出了一种基于有向图的中文分词算法,该算法首先构造中文分词有向图,然后计算中文分词有向图中所有可能的切分路径,最后利用了最少分词原则、汉字之间的互信息和词语的频率等信息给中文分词有向图中的每条切分路径打分,分数最高的路径就对应正确的切分结果。开放测试结果表明分词精确率可达90%以上。 相似文献
10.
利用上下文信息解决汉语自动分词中的组合型歧义 总被引:15,自引:2,他引:15
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。 相似文献
11.
12.
13.
一种基于信息熵的中文高频词抽取算法 总被引:9,自引:0,他引:9
为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。 相似文献
14.
以广西大厂锡矿山矿区为范例,在VB环境下进行组件式GIS二次开发,建立了金属矿山地质灾害信息管理系统,对地质灾害信息进行方便、快速、有效的管理。解决了我国金属矿山以往普遍采用的人工记录、档案管理模式中的管理不便、使用不便的问题。便于发现地质灾害与其他因素的内在联系,总结灾害发生的规律,对矿山的防灾、减灾以及灾害损失评估具有重要意义。 相似文献
15.
以广西大厂锡矿山矿区为范例,在VB环境下进行组件式GIS二次开发,建立了金属矿山地质灾害信息管理系统,对地质灾害信息进行方便、快速、有效的管理.解决了我国金属矿山以往普遍采用的人工记录、档案管理模式中的管理不便、使用不便的问题.便于发现地质灾害与其他因素的内在联系,总结灾害发生的规律,对矿山的防灾、减灾以及灾害损失评估具有重要意义. 相似文献
16.
在过去的几十年里,互联网技术的发展和普及推动人类进入了数字信息时代,互联网已成为人类生活的重要组成部分。随着数字化生活方式的到来,人们每时每刻都在产生大规模的数字信息,如何将这些信息进行便捷有效的存储是个必须面对的问题。针对数据存储面临的种种问题,该文从现有的存储方式和存储介质出发,对当前存储领域进行深入研究,分析了 DNA 作为未来大数据存储介质的优势,以及 DNA 存储的核心技术和潜在的应用前景。另外,该文通过对 DNA 信息存储的核心技术进行剖析和讨论,提出了未来 DNA 信息存储发展的趋势和见解,以期对 DNA 信息存储发展提供新的思路。 相似文献
17.
18.
作为新一代信息存储介质,DNA 具有高信息密度和长期保存能力,有望解决全球数据存储介质耗竭的问题。但目前 DNA 信息存储技术的发展主要围绕信息“冷存储”开展,这使得存储过程中出现修改、更新、删除、销毁等需求时束手无策。该文从“冷存储”技术的现状出发,通过归纳总结 DNA 信息存储介质难以实现“热存储”应用的原因,解析用于信息处理功能的一系列“热存储”技术,包括加密销毁、重写再生、擦除恢复、运算记录等,详细论证 DNA 介质用作信息处理载体的可行性与有效性,分析各技术之间的关联性和挑战性,以期为 DNA 存储技术低能耗、高精准、高效率、高安全性的应用奠定基础,并推动新一代智能型信息存储介质和信息处理系统的发展。 相似文献
19.
随着互联网Web 2.0技术的发展和医疗卫生信息数据的急剧增加,传统关系型数据库针对医疗海量大数据已出现存储效率低、高并发读写性能差、弹性存储扩展和数据管理困难等问题。研究采用非关系型数据库技术作为传统关系型数据库的补充,以模式自由的方式,设计具有海量大数据高效存储、高并发读写、易扩展、低成本等特点的医疗卫生信息存储架构,并阐述TYKY cNosql云数据库的关键技术和应用效果。 相似文献