首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
在全文信息检索系统中,存储文本及其上关键词的索引结构需要大量的空间。位图索引不能支持基于信息量的查询,倒排文件需要的空间比较大。提出了频率向量这种索引结构的压缩存储方法,设计并实现了基于这种压缩存储方法的存储结构,理论分析表明该压缩方法与存储结构可以获得较高的压缩比;此外,还讨论了压缩频率向量上的查询处理技术,实验结果表明这种压缩的索引结构能够保证查询结果的完备性,并能有效地提高频率向量的存储和查询效率。  相似文献   

2.
PCTOOLS中有一项Disk search(磁盘搜索)功能,它可以越过磁盘文件的逻辑结构,忽略文件的目录,直接在扇区上搜索所需要的信息,常用于文本文件的恢复。 当磁盘的目录区或文件分配表损坏而使文件不能读出时,可用PCTOOLS进行磁盘搜索。在确定文本文件所在的扇区位置后,读出扇区内容,再存储于被重新命名的文件中。用这种方法可恢复文本文件的内容。当文本文件被删除或被覆盖时,也可用同样的疗法。  相似文献   

3.
孙晓玲  杨光  沈焱萍  杨秋格  陈涛 《计算机应用》2021,41(11):3288-3294
为快速检索云环境下的加密数据,提出了一种高效的适用于批量数据处理场合的可搜索加密方案。首先,由客户端创建两个倒排索引,分别是存储了文件-关键词映射的文件索引和用于存储关键词-文件映射的空的搜索索引;然后,将这两个索引提交给云服务器。搜索索引是在用户检索过程中由云端根据搜索凭证和文件索引逐渐更新建立的,记录了已被检索关键词的检索结果,该方法将搜索索引的构建时间有效分摊了到了每次检索过程中并节省了存储空间。索引采用基于key-value结构的集合存储方式,支持索引的同时合并和拆分,即在添加和删除文件时,由客户端根据要添加或删除的文件集生成对应的文件索引和搜索索引,然后服务器对索引进行合并和拆分,从而实现文件的快速批量添加和删除。测试结果表明,所提方案极大提高了文件更新的效率,适用于批量数据处理。通过泄露函数证明了该方案能满足自适应动态选择关键词攻击下的不可区分性安全标准。  相似文献   

4.
海量媒体数据存储系统中,文件过大或多用户并发访问等原因会造成二进制大对象(BLOB)存储过程失效。为提高存储系统存取非结构二进制文件的可靠性和稳定性,提出并建立了BLOB存储可靠性概率模型,证明了使用数量较多的文件分块和较小的分块大小,可提高BLOB存储成功的概率。根据该模型,改进了关系数据库存储环境下的BLOB数据存取技术。通过建立基于文件分块的存储结构,提出了BLOB数据分块存储和重新装配新算法并进行了仿真实验。BLOB存取算法的仿真实验和实际应用表明,该存取算法有效降低了媒体数据存储失效的概率。  相似文献   

5.
郭军 《工矿自动化》2023,(1):153-161
利用真三维网格化地质模型实现煤矿地质环境的多分辨率表达和多参数的融合是煤矿地学大数据研究的重点内容之一,其核心问题是三维地质模型数据组织、存储和管理等。针对煤矿三维地质网格模型的数据规模、分布式存储和查询性能等问题,提出了一种基于HDF5的煤矿地质三维层叠网格模型分布式存储方案。在网格数据组织方面,采用层叠网格模型对三维地质模型数据进行压缩和分块组织,通过数据分块解决大规模地质网格模型数据的组织问题,数据分块同时将空间相近的数据集中在相邻的硬盘扇区或存储设备中,有利于提高数据调度效率。在数据存储方面,HDF5作为存储的持久化层,用来存储所有的原始数据,采用内存数据库Redis存储热点数据、HDF5元数据等相关信息。在Web服务方面,使用H5Serv发送和接收HDF5数据。在HDF5实现分布式方面,利用网络文件系统(NFS)实现HDF5数据在不同节点服务器之间的共享;利用Rsync和Inotify实现HDF5数据在不同节点服务器的数据实时同步;通过Nginx实现访问时反向代理和数据服务节点的负载均衡。使用Docker容器技术将数据节点服务和Nginx服务进行统一部署,通过JupyterL...  相似文献   

6.
大文件分块上传和下载软件的设计与实现   总被引:3,自引:0,他引:3  
针对大文件在网络存储过程中可能存在的上传和下载失败问题,提出了一种利用数据库进行分块存储和管理较大文件的方法。将一个较大的文件分割成多块,分别对分割后的每一块进行上传或下载,从而避免了网络因素对直接上传和下载较大文件所产生的影响。测试表明,通过所提出的分块与合并方法,可以有效地避免文件上传和下载过程中可能出现的失败问题,提高了上传和下载的效率。  相似文献   

7.
余扬武  吴顺祥 《计算机工程》2008,34(11):263-265
针对计算机取证中的电子证据问题,设计并实现基于关键词匹配的打印数据获取系统。通过对硬盘中假脱机文件关键词的搜索,定位打印数据所在的物理扇区并读出相关内容。性能测试显示,该系统能快速有效地获取打印内容,适用于信息保护、电子取证等环境,具有较高的实用价值。  相似文献   

8.
朱卫星  徐伟光  何红悦  李雯 《计算机科学》2017,44(Z11):411-413, 456
文本数据是存储和交换信息最自然的方式,文本挖掘技术可以发现海量文本数据中隐藏的潜在知识模式。研究了文本数据主题挖掘与关联搜索技术,首先通过文本解析提取、分词预处理和索引等进行文本信息处理,然后利用基于潜在语义关系的主题发现模型挖掘大量文本数据中隐藏的主题信息,最后利用主题模型计算关键词间的关联程度进行查询扩展,从而实现关联搜索。实现了一个文本数据挖掘与关联搜索的原型系统,对Tancorp数据集进行主题发现和关联搜索,并以视化和网页同步显示关联搜索的过程。  相似文献   

9.
自适应分块图像压缩是存四叉树分解图像压缩原理批础上研究设计的一种新的算法。将图像中像素值相同的相邻像素点尽可能划分到同一个图像块中,采用稀疏矩阵三元组存储方式对图像块参数进行存储,从而达到图像爪缩的目的。使用MATLAB对算法进行了仿真,成功地完成了图像压缩和重建,并在不同条件下,对图像压缩过程中的各个参数与四又树分解进行了分析比较。结果表明新方法分块自适应度高,提高了图像压缩比。  相似文献   

10.
在以往的运动图象分块运动匹配算法中,分块运动向量的起始搜索点是固定的。本文根据各分块运动向量的分布统计特性和相邻分块运动向量的相关特性,提出了一种基于预测起始搜索点的运动图象分块运动匹配新算法。通过用相邻分块运动向量的相互关系预测当前分块的起始搜索点,利用基于中心搜索模式的分块运动匹配算法寻找匹配的运动向量。实验表明,该算法预测步骤简单,令搜索更快接近全局极值,与其它快速分块运动匹配算法相比有效地降低了帧间运动补偿误差和所需搜索运算量,效果较好。  相似文献   

11.
陈伟鹤  刘云 《计算机科学》2016,43(12):50-57
中文文本的关键词提取是自然语言处理研究中的难点。国内外大部分关键词提取的研究都是基于英文文本的, 但其并不适用于中文文本的关键词提取。已有的针对中文文本的关键词提取算法大多适用于长文本,如何从一段短中文文本中准确地提取出具有实际意义且与此段中文文本的主题密切相关的词或词组是研究的重点。 提出了面向中文文本的基于词或词组长度和频数的关键词提取算法,此算法首先提取文本中出现频数较高的词或词组,再根据这些词或词组的长度以及在文本中出现的频数计算权重,从而筛选出关键词或词组。该算法可以准确地从中文文本中提取出相对重要的词或词组,从而快速、准确地提取此段中文文本的主题。实验结果表明,基于词或词组长度和频数的中文文本关键词提取算法与已有的其他算法相比,可用于处理中文文本,且具有更高的准确性。  相似文献   

12.
针对传统敏感信息识别方法忽略了上下文语境和关键词词性而导致的漏报、误报问题,提出一种改进文本敏感信息识别的方法STEAP。构建暴恐敏感词典;通过敏感触发事件的抽取构建敏感触发事件序列,结合敏感触发事件及关键词的词性为待识别的信息分配权重;将构建的触发事件与词向量、暴恐敏感词典进行相似度的计算,结合权重获得文本的敏感度。实验结果证明,与传统敏感信息识别方法相比,STEAP方法能够有效识别出文本中的敏感信息,并且在精确度上得到了一定提高。  相似文献   

13.
基于分离模型的中文关键词提取算法研究   总被引:4,自引:0,他引:4  
关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语和未登录词,而这部分关键词的抽取是十分困难的问题。该文提出将关键词提取分为两个问题进行处理关键单词提取和关键词串提取,设计了一种基于分离模型的中文关键词提取算法。该算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。实验表明,相对于传统的关键词提取算法,基于分离模型的中文关键词提取算法效果更好。  相似文献   

14.
星际文件系统(interplanetary file system,IPFS)实现了去中心化存储,可以满足日益增长的数据存储需求,然而IPFS仅提供一种精确的数据获取方式,在缺乏数据唯一标识时无法查找数据.现有的IPFS数据获取方法削弱了IPFS的去中心化,仅实现了关键字搜索,对长查询语句进行关键词搜索加重了网络负担....  相似文献   

15.
可搜索加密技术在不解密的情况下搜索加密数据.针对现有的可搜索加密技术没有考虑数据用户细粒度搜索权限的问题,以及现有的可搜索加密方案中因云存储的集中化对数据安全和隐私保护带来的问题,提出了区块链上基于云辅助的属性基可搜索加密方案.该方案利用可搜索加密技术实现加密数据在区块链上的安全搜索,利用基于属性的加密技术实现数据的细...  相似文献   

16.
Keyword based search systems are becoming increasingly popular and are considered a key feature in many information management systems. Keyword based search approaches have the significant advantage of not requiring users to know how data is organized or stored. Typical approaches assume the dataset to be modeled as a graph, where answers to queries are sub-graphs ranked according to some criteria. Exploring the graph and building and ranking quality pose a number of challenges. In this paper, we discuss Yaanii, an approach for effective Keyword Search over graph-modeled Web data. Yaanii contains a novel approach to keyword search, by extracting the best results from the first set of answers and then combining a solution building algorithm with a ranking technique. In addition to the algorithms and the processes for building result sets, we provide a detailed study of the computational and ranking complexity of Yaanii and compare it with other approaches. We show that Yaanii is superior in terms of efficiency and quality of returned results from both the experimental and theoretical aspects.  相似文献   

17.
覃遵跃  汤庸  徐洪智  黄云 《软件学报》2019,30(4):1062-1077
关键字检索具有友好的用户操作体验,该检索方式已在文本信息检索领域得到了广泛而深入的应用.对XML数据采用关键字检索是目前研究的热点.基于查询语义的XML关键字检索方法存在返回大量与用户查询意图无关的查询片段或者丢失符合用户查询意图的片段这两个问题.针对这些问题,在考虑LCA横向和纵向两个维度的基础上,提出了用户查询意图与LCA相关性的两个规则,根据两个规则定义了LCA的边密度和路径密度,建立了综合的LCA节点评分公式,最后设计TopLCA-K算法对LCA进行排名,并利用中心位置索引CI提高了TopLCA-K算法的效率.实验结果显示,利用所提出的方法返回的查询节点更加符合用户需求.  相似文献   

18.
对于加密云数据的搜索,传统的关键词模糊搜索方案虽然能搜索到相关文档,但是搜索的结果并不令人满意。在用户输入正确的情况下,无法完成近似搜索,当用户出现拼写错误时,返回的结果中包含大量无关关键词文档,严重浪费了带宽资源。针对目前在加密云数据下关键词模糊搜索的缺陷,提出了一种新型的关键词模糊搜索方案,通过对关键词计算相关度分数并对文档根据相关度分数进行排序,将top-k(即相关度最高的k个文档)个文档返回给搜索用户,减少了不必要的带宽浪费和用户寻找有效文档的时间消耗,提供了更加有效的搜索结果,并且通过引入虚假陷门集,增大了云服务器对文档关键词的分析难度,增加了系统的隐私性保护。  相似文献   

19.
一种基于XLCA的XML关键字搜索方法   总被引:1,自引:0,他引:1  
关键字搜索是大多数普通用户搜索信息的有效手段,因为他们不需要学习复杂的查询语言,也不需要了解底层数据的结构.本文研究了针对XML文档的关键字搜索问题,首先指出前人基于SLCA的结果集定义的不完备性,进而提出基于XLCA的结果集定义,使得其能够包含所有可能的结果.基于这样的结果集定义,给出了一种精简的索引结构以及相应的搜索算法,并实现了这两种不同的方法,实验证明本文提出的方法在性能以及可扩展性方面均有较大的提高.  相似文献   

20.
基于语义的中文文本关键词提取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基于统计特征的关键词提取算法相比,SKE算法提取的关键词能体现文档的主题,更符合人们的感知逻辑,且算法性能较优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号