首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
汉语文本压缩研究及其应用   总被引:3,自引:3,他引:3  
汉语文本压缩至今很少受到重视, 然而, 作为许多计算机应用系统的支撑技术, 其重要性毋庸置疑。本文结合汉语文本的特征对现行文本压缩技术进行评述, 指出汉语文本理论上可能获得的平均压缩比率(〉3.9) 及现行压缩算法所能达到的水平(1.6左右)。此外, 讨论了汉语文本压缩的研究方向以及几种典型的应用。  相似文献   

2.
Application of a Finite-State Model to Text Compression   总被引:1,自引:0,他引:1  
Tuehola  J.; Raita  T. 《Computer Journal》1993,36(7):607-614
  相似文献   

3.
使用否定选择算法改进文本过滤   总被引:2,自引:0,他引:2       下载免费PDF全文
本文针对基于关联规则的文本过滤器设计做了如下探索:(1)针对中文网络语言的特点,引入n-Gram方法提取文本的特征;(2)提出边界样本的概念;(3)在设计基于关联规则的文本过滤器时,引进了否定选择算法,采用否定选择算法对过滤器的检测器集合进行自体耐受,最终建立高准确率的文本过滤器。实验表明,经过自体耐受的过滤器 可以有效地提高过滤准确率。  相似文献   

4.
分形图象压缩技术是近十年来提出的一种新的图象压缩方法,该方法利用自然界广泛存在的自相似性,以8种简单的仿射变换的组合对图象进行有损压缩,可得到较高的压缩比.但由于分形图象压缩的计算复杂度较高,计算量较大,限制了这一方法在现实中的应用.本文提出一种使用聚类及向量量化技术改进分形图象压缩的方法,降低了分形图象压缩的计算复杂度,提高了压缩效率.本文所述的方法已在c++Builder 6.0集成开发环境下实现了对彩色图象的压缩,并取得较好的实验效果.  相似文献   

5.
6.
7.
基于自适应分块的快速分形图象压缩   总被引:2,自引:0,他引:2       下载免费PDF全文
对Fisher的自适应分块分形压缩方法进行了改进,提出了基于相对矩的三级分类方法和多分辨率相似匹配方法,并以此为基础实现了一种新的基于四叉树分块的分形编码算法。实验表明,在压缩比大致相同、信噪比略高的情况下,新算法的编码速度有明显提高。  相似文献   

8.
Abstract

Retrieving relevant information from Twitter is always a challenging task given its vocabulary mismatch, sheer volume and noise. Representing the content of text tweets is a critical part of any microblog retrieval model. For this reason, deep neural networks can be used for learning good representations of text data and then conduct to a better matching. In this paper, we are interested in improving both representation and retrieval effectiveness in microblogs. For that, a Hybrid-Deep Neural-Network-based text representation model is proposed to extract effective features’ representations for clustering oriented microblog retrieval. HDNN combines recurrent neural network and feedforward neural network architectures. Specifically, using a bi-directional LSTM, we first generate a deep contextualized word representation which incorporates character n-grams form FasText. However, these contextual embedded existing in a high-dimensional space are not all important. Some of them are redundant, correlated and sometimes noisy making the learning models over-fitting, complex and less interpretable. To deal with these problems, we proposed a Hybrid-Regularized-Autoencoder-based method which combines autoencoder with Elastic Net regularization for an effective unsupervised feature selection and extraction. Our experimental results show that the performance of clustering and especially information retrieval in microblogs depend heavily on features’ representation.  相似文献   

9.
基于LZSS算法,提出引入WM多模式匹配思想的压缩算法(WM_LZSS压缩算法),该算法通过一个模式库自动记录在已读入文本中出现过的匹配长度较长的短语,在压缩的过程中预先对文本进行多模式匹配。通过对WM_LZSS算法测试的实验,表明WM_LZSS压缩算法在文本文件压缩应用中压缩比比LZSS算法高,特别适合于对文本相似度高的长文件进行压缩。  相似文献   

10.
11.
Array partitioning is an important research problem in array management area, since the partitioning strategies have important influence on storage, query evaluation, and other components in array management systems. Meanwhile, compression is highly needed for the array data due to its growing volume. Observing that the array partitioning can affect the compression performance significantly, this paper aims to design the efficient partitioning method for array data to optimize the compression performance. As far as we know, there still lacks research efforts on this problem. In this paper, the problem of array partitioning for optimizing the compression performance (PPCP for short) is firstly proposed. We adopt a popular compression technique which allows to process queries on the compressed data without decompression. Secondly, because the above problem is NP-hard, two essential principles for exploring the partitioning solution are introduced, which can explain the core idea of the partitioning algorithms proposed by us. The first principle shows that the compression performance can be improved if an array can be partitioned into two parts with different sparsities. The second principle introduces a greedy strategy which can well support the selection of the partitioning positions heuristically. Supported by the two principles, two greedy strategy based array partitioning algorithms are designed for the independent case and the dependent case respectively. Observing the expensive cost of the algorithm for the dependent case, a further optimization based on random sampling and dimension grouping is proposed to achieve linear time cost. Finally, the experiments are conducted on both synthetic and real-life data, and the results show that the two proposed partitioning algorithms achieve better performance on both compression and query evaluation.  相似文献   

12.
为了理解高效的文本压缩算法,探究文本压缩的原理和意义,对基于BWT的字符串轮转理论进行了深入的理解;游程编码作为一种简单有效的压缩方式,在数据压缩中有十分广泛的应用,文本压缩的研究对于多媒体的压缩研究有着十分重要的意义.把BWT结合游程编码对选定的文本信息进行了压缩比较,实验证明了该算法的高效性和实用性.同时对基于BWT压缩算法的发展趋势进行了展望及分析.  相似文献   

13.
In recent years, applications of graph theory to computer software have given fruitful results and attracted more and more attention. A program graph is a graph structural model of a program exhibiting the flow relation or connection among the elements (statements) in the program.  相似文献   

14.
该文提出了一种高效的中文文本压缩算法CRecode,算法根据中文文本中字词的概率分布特点,对中文字词根据其使用频率,采用8bit、16bit和24bit三种长度的编码重新编码,克服了Huffman编码在压缩中文数据时打乱数据中蕴含的语义信息,致使其压缩数据再压缩性差的缺点。测试中,CRecode在与现有主流压缩软件联合使用时,可提高压缩率4%到30%,最大平均压缩比可达2.86。CRecode作为独立压缩算法,压缩中文文本时可获得优于Huffman编码、接近于LZ系列算法的性能。  相似文献   

15.
中西文文本压缩的LZWCH算法   总被引:4,自引:2,他引:2  
该文根据中文文本的特征对LZW算法从哈希函数、基本码集和更新策略三方面进行修改,得到的LZWCH算法对以中文为主的中西混合文本的压缩比平均比LZW算法高出约16%,压缩和扩展速度也提高约4%,其可执行程序的大小亦与LZW相当。LZWCH无须任何预处理,并可用于压缩其它非拼音文字文本文件。  相似文献   

16.
随着藏文信息处理技术的发展,藏文压缩也成了必不可少的一门研究内容。但是目前的研究成果只有一个,然而现实环境中需要一个适应于不同场合的藏文文本压缩技术。该文根据藏文文本的特点,提出两种改进的LZW数据压缩算法对藏英文混合文本进行数据压缩并无损解压。通过实验结果表明,该算法是一个适应于不同场合的文本压缩技术。  相似文献   

17.
无论是在存储设备中存储文件,还是用因特网传输文件,经常会用到一些压缩算法来节省空间,提高传输速度。文中利用聚焦最有效的压缩算法Huffman编码,并用Java来实现这个过程。  相似文献   

18.
中文全文检索系统中的压缩模型和模式匹配技术   总被引:3,自引:0,他引:3  
本文给出了一种适用中文全文检索系统的压缩模型,使传统的LZW模型能适用于大字符集语言源文本。方法的关键是通过引入切割标记控制字典多叉树的节点的无限扩大。对文件的检索直接在压缩文件上进行,因而可较大地提高检索效率。  相似文献   

19.
权吸引子传播算法及其在文本聚类中的应用   总被引:1,自引:0,他引:1  
吸引子传播算法(affinity propagation, AP)是一种新的高效聚类算法.由于AP算法简单易用,它已被广泛应用到数据挖掘的各个领域.在AP算法中,相似性度量具有重要作用.另一方面,传统的文本挖掘常采用向量空间模型和满足欧氏空间的相似性度量.这种方法的优点是简单且易于实现,但随着数据规模的膨胀,向量空间将变得高维稀疏并将导致计算复杂度快速增长.为解决此问题,给出了相似特征集、排斥特征集和仲裁特征集的概念,在这些概念的基础上提出了一种能够包含文本结构信息的非欧空间相似性度量方法.并提出了一种新的聚类算法,称之为权吸引子传播算法(weight affinity propagation, WAP).为检验提出算法的聚类效果,选用标准数据集Reuters-21578进行了验证.实验结果表明WAP明显优于k-means聚类算法、具备非线性特征的SOFM聚类算法和采用经典相似性度量的吸引子传播算法等3种经典聚类算法.  相似文献   

20.
中心分类法性能高效,但需要大量的训练文档(已标识文档)来训练分类器以保证分类的正确性.而训练文档因需花费大量人力物力来分类而数量有限,同时,网络上存在着很多未标识文档.为此,对中心分类法进行改进,提出了ONUC和0FFUC算法,以弥补当训练文档不足时,中心分类法性能急剧下降的缺陷.考虑到中心分类法易受孤立点的影响,采取了去边处理.实验证明,与普通的中心分类法、其它半监督经典算法比较,在训练文档很少的情况下,该算法能获得较好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号