首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
随办公信息化、生活网络化不断推进,诸如企业产品问题描述、Web用户评论、通信文本信息等新生的非结构化文本数据也伴随着快速的增长以及其不断积累。这对于如何能准确、高效的检索到用户真实需求的文本信息提出了新的要求和挑战。检索模型对检索准确度、效率等具有决定性影响。近年来,大量新兴方法融入到文本的检索模型中,使模型本身变得纷繁复杂,同时传统模型间的界限变得模糊。本文从非结构化文本数据的检索需求出发,归纳检索模型的定义和通用框架;进而基于检索词项相似性计算采用的数学理论,对检索模型进行分类,并详细阐述各类模型的发展脉络、分析其优缺点及适用场景。最后,讨论了新环境下海量文本检索模型面临的挑战及相关研究问题思考。  相似文献   

2.
针对大数据环境下,传统通用图匹配检索低效、折射率数据无法快速定位的问题,建立了基于一致性Hash的分布式海量分子检索模型。模型结合分子特点,将连续的折射率通过等宽算法离散化建立高速Hash索引,实现分布式海量分子检索系统,有效减小了参与计算的分子数据规模,并根据分子访问频次处理冲突从而提高分子检索效率。实验结果表明,在包含20万个分子的数据中,该方法平均检索耗时约为通用图匹配平均检索耗时的5%,模型性能稳定,具有高可扩展性;对于海量数据环境下依据折射率检索高频次分子较为适用。  相似文献   

3.
传统的话题模型假设每个文档只属于一个话题,而实际情况下一个文档往往与多个话题相关。应用LDA 模型将文档表示为多个话题的组合,并基于语言模型框架,提出了一种基于 LDA 的混合模型用于文本信息的 Ad hoc 检索。该方法将 LDA 模型与文档模型相结合,与聚类模型相比,在保持较低的计算复杂度外,具有很高的检索性能,因此更适用于大规模文档集的信息检索。  相似文献   

4.
基于认知理论和投影理论,提出极限投影面积方法对三维模型进行坐标标准化:将模型不断绕过模型重心的基向量旋转,采集每次坐标面投影面积,在多次迭代后得到最大面积投影,用同样办法获得另一坐标面上的最小面积投影,建立模型的坐标系.实验结果表明:该方法标准化的坐标系处理对象范围宽,适用于网格模型、点云模型和各类曲面模型,针对模型噪声、简化、攻击等有很强的鲁棒性.经该方法标准化的三维模型在3个坐标面的投影作为模型的特征描述子,并在实验中为实验模型库建立了对应的特征描述子库,使得对模型检索转化为特征描述子间的比较检索.检索实验表明:该方法针对增加了特征描述子的模型库具有较快的检索速度;同时具有较强的鲁棒性,但检索的精度稍差.  相似文献   

5.
针对二维钣金类CAD零件相似性的检索,提出一种适用于钣金展开件的相似性检索算法.在分析钣金零件形状特点的基础上,选取设计过程中常用的36种关键特征,建立了关键特征的位置关系模型.该模型以构建关键特征之间的相对位置三角形为基础,具有坐标系无关和旋转无关的特性;以关系模型为依据,提出了钣金件关键特征的相对位置检索算法,并通过实例计算了不同钣金零件之间的相似度.实验结果表明,文中算法是有效的,可满足钣金零件的检索要求,具有实用价值.  相似文献   

6.
函数类构件的并行检索与合成   总被引:2,自引:0,他引:2  
探讨组合软件设计中构件并行检索与合成。将组合软件自底向上设计归结为函数复合问题。提出一种适用于处理具有函数映射特征的软构件-函数类构件并行检索与合成方法。通过过程抽象、模型定义、函数规范实现、简化检索与合成手续和范围,使可操作性大大提高。  相似文献   

7.
为了解决云存储技术带来的数据安全和高效检索问题,在深入研究可搜索加密技术基础上,提出一种基于云存储的密文全文检索模型,给出基于可搜索加密技术的密文全文索引构建和检索策略,并对方案的安全性进行分析。实验表明,云存储环境下基于可搜索加密技术的密文全文检索方案既保证了数据的安全性,又具有很好的检索效率,可适用于海量数据的加密存储与高效安全检索。  相似文献   

8.
针对如何提高复杂曲面的三维模型的检索精度的问题,提出了一种基于曲度特征的三维模型检索算法。首先,在模型表面选取随机采样点,计算点所在局部曲面的高斯曲率和平均曲率,通过高斯曲率和平均曲率求出随机点的曲度值,曲度值表明了曲面的凹凸属性。然后,以模型的质心为球心,以随机点与质心距离和曲度值为坐标轴建立坐标系,统计出一定距离范围内曲度值分布的概率,构建距离与曲度的分布矩阵,以此分布矩阵作为三维模型特征描述符。该特征描述符具有旋转不变性和平移不变性,能够很好地反映复杂曲面的几何特征。最后,通过比较分布矩阵给出不同模型间的相似度。实验结果表明,该方法相比形状分布算法的检索性能有较大提高,尤其适用于具有复杂曲面的三维模型检索。  相似文献   

9.
三维CAD曲面模型距离-曲率形状分布检索算法   总被引:1,自引:1,他引:0  
产品三维CAD模型检索对实现产品设计信息的有效重用具有重要意义和作用.针对在工程应用中存在大量含有曲面的产品,提出一种基于距离-曲率形状分布的三维CAD曲面模型检索算法.首先在模型表面随机取点,计算出所取点的曲率以及该点到模型质心的距离;然后以模型质心为球心,统计处在不同半径球壳间所取随机点的曲率分布,分别以球壳半径和曲率为坐标轴构建距离-曲率平面网格,并统计每个网格中随机点出现的频次,从而形成距离-曲率矩阵;最后利用特定的规则计算矩阵的相似值,用该值衡量2个模型的相似程度,实现模型的相似性检索.实验结果表明,文中算法的检索性能比传统的形状分布算法有较大提高,尤其适用于自由曲面模型的检索.  相似文献   

10.
目的 图像检索是计算机视觉的一项重要任务。图像检索的关键是图像的内容描述,复杂图像的内容描述很具有挑战性。传统的方法用固定长度的向量描述图像内容,为此提出一种变长序列描述模型,目的是丰富特征编码的信息表达能力,提高检索精度。方法 本文提出序列描述模型,用可变长度特征序列描述图像。序列描述模型首先用CNN(convolutional neural network)提取底层特征,然后用中间层LSTM(long short-term memory)产生局部特征的相关性表示,最后用视觉注意LSTM(attention LSTM)产生一组向量描述一幅图像。通过匈牙利算法计算图像之间的相似性完成图像检索任务。模型采用标签级别的triplet loss函数进行端对端的训练。结果 在MIRFLICKR-25K和NUS-WIDE数据集上进行图像检索实验,并和相关算法进行比较。相对于其他方法,本文模型检索精度提高了512个百分点。相对于定长的图像描述方式,本文模型在多标签数据集上能够显著改善检索效果。结论 本文提出了新的图像序列描述模型,可以显著改善检索效果,适用于多标签图像的检索任务。  相似文献   

11.
Hung‐Yan Gu 《Software》2005,35(11):1027-1039
In this paper, a large‐alphabet‐oriented scheme is proposed for both Chinese and English text compression. Our scheme parses Chinese text with the alphabet defined by Big‐5 code, and parses English text with some rules designed here. Thus, the alphabet used for English is not a word alphabet. After a token is parsed out from the input text, zero‐, first‐, and second‐order Markov models are used to estimate the occurrence probabilities of this token. Then, the probabilities estimated are blended and accumulated in order to perform arithmetic coding. To implement arithmetic coding under a large alphabet and probability‐blending condition, a way to partition count‐value range is studied. Our scheme has been programmed and can be executed as a software package. Then, typical Chinese and English text files are compressed to study the influences of alphabet size and prediction order. On average, our compression scheme can reduce a text file's size to 33.9% for Chinese and to 23.3% for English text. These rates are comparable with or better than those obtained by popular data compression packages. Copyright © 2005 John Wiley & Sons, Ltd.  相似文献   

12.
该文提出了一种高效的中文文本压缩算法CRecode,算法根据中文文本中字词的概率分布特点,对中文字词根据其使用频率,采用8bit、16bit和24bit三种长度的编码重新编码,克服了Huffman编码在压缩中文数据时打乱数据中蕴含的语义信息,致使其压缩数据再压缩性差的缺点。测试中,CRecode在与现有主流压缩软件联合使用时,可提高压缩率4%到30%,最大平均压缩比可达2.86。CRecode作为独立压缩算法,压缩中文文本时可获得优于Huffman编码、接近于LZ系列算法的性能。  相似文献   

13.
汉语文本压缩研究及其应用   总被引:3,自引:3,他引:3  
汉语文本压缩至今很少受到重视, 然而, 作为许多计算机应用系统的支撑技术, 其重要性毋庸置疑。本文结合汉语文本的特征对现行文本压缩技术进行评述, 指出汉语文本理论上可能获得的平均压缩比率(〉3.9) 及现行压缩算法所能达到的水平(1.6左右)。此外, 讨论了汉语文本压缩的研究方向以及几种典型的应用。  相似文献   

14.
结合中文文本中的汉字编码方式、大字符集以及重复字串不长三个不同于英文文本的结构特点对LZW算法从读取数据方式、基本码集和字典码值输出方式三方面进行了修改。改进后的算法对中文文本的压缩比平均比LZW19提高了19%且压缩和解压速度与后者相当,其对较长的中文文本的平均压缩比已接近或者超过了压缩软件WinRAR。  相似文献   

15.
基于邻接矩阵全文索引模型的文本压缩技术   总被引:1,自引:0,他引:1  
基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型,但是它的最优符号集的寻找算法是NP完全问题,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法,发现一个局部最优的单词表。这种方法的关键是将文本的邻接矩阵索引作为统计基础,邻接矩阵全文索引是论文提出的一种新的全文索引模型,它忠实地反映了原始文本,很利于进行原始文本的初步统计,因此算法效率得以提高,其时间复杂度与文本的汉字种数成线性关系,能够适应在线需要。并且,算法生成的压缩模型的压缩比是0.47,比基于字的压缩模型的压缩效率提高25%。  相似文献   

16.
This paper suggests a novel compression scheme for small text files. The proposed scheme depends on Boolean minimization of binary data accompanied with the adoption of Burrows-Wheeler transformation (BWT) algorithm. Compression of small text files must fulfil special requirements since they have small context. The use of Boolean minimization and Burrows-Wheeler transformation generate better context information for compression with standard algorithms. We tested the suggested scheme on collections of small and medium-sized files. The testing results showed that proposed scheme improve the compression ratio over other existing methods.  相似文献   

17.
本讨论了本压缩的几种模式及常用技术,介绍了两种的本压缩方法-算术编码法在LZ字典压缩方法。分析了中,英本之间的不同,提出了几种适合于汉字本压缩的技术。  相似文献   

18.
Outline字体结构式压缩算法及其实现   总被引:2,自引:0,他引:2  
针对CJK Outline字体在存储量上存在的不足,本文提出一种结构式压缩算法。算法对CJK字体进行集合变换,得到笔划集合元素;并利用聚类算法得到模板笔划;对相似数据进行统一存储与调用。同时,本文还提出了一种基于笔划段的笔划抽取算法,从图论角度实现了集合变换。结果显示,算法取得了较好的效果,而且适用于多种字体。  相似文献   

19.
为了研究LZ77算法的对文本文件的压缩性能,在分析LZ77算法的基础上给出了实现压缩和解压缩软件的方法,并且采用该软件分别对英文文本和中文文本压缩情况进行了测试,最后给出了测试结果分析。  相似文献   

20.
汉语文本动态字母表0阶模型算术编码   总被引:1,自引:1,他引:0  
本文探讨汉语文本的0阶统计模型的构造方法,提出了一个卓有成效的汉语文本压缩算法。仅仅凭借这一最初级的模型,汉语文本的编码效率已经超过LZ与Huffman编码的混合算法。由于0阶统计模型是各种高阶统计模型的基础,所以本文对汉语以及其他大字符集文种(如日文、朝鲜文)的文本压缩研究具有重要的参考意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号