首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
《计算机工程》2017,(3):299-303
利用LZW算法进行数据压缩,当字典长度为l时,前缀在区间[0,l-1]中,因而只能通过「Ibl」bit对前缀进行编码,使区间[l,2~(「Ibl」)-1]内的数据不能被充分利用,造成冗余现象。针对该问题,提出一种前缀映射编码的改进压缩算法。对满足条件的前缀不直接编码输出,而是将其映射到区间[l,2~(「Ibl」)-1],此时编码位数并未减少但却隐含一个标志位信息,标志下一个前缀编码用更少的比特位来编码。与原LZW算法相比,改进算法不增加计算量和存储空间,并且通用性好。英文文本数据压缩仿真和残差数据压缩应用结果均验证了该算法的有效性。  相似文献   

2.
基于中文词编码的压缩算法ZHCP的实现   总被引:2,自引:0,他引:2  
本文提出并实现了一个基于词编码的ZHCP中文文本压缩算法,通过大量的对相同文本分别使用传统编码算法与ZHCP算法压缩后得到的结果数据对比,表明基于词编码的ZHCP压缩算法有较好的压缩效果。  相似文献   

3.
该文提出了一种高效的中文文本压缩算法CRecode,算法根据中文文本中字词的概率分布特点,对中文字词根据其使用频率,采用8bit、16bit和24bit三种长度的编码重新编码,克服了Huffman编码在压缩中文数据时打乱数据中蕴含的语义信息,致使其压缩数据再压缩性差的缺点。测试中,CRecode在与现有主流压缩软件联合使用时,可提高压缩率4%到30%,最大平均压缩比可达2.86。CRecode作为独立压缩算法,压缩中文文本时可获得优于Huffman编码、接近于LZ系列算法的性能。  相似文献   

4.
基于LZSS算法,提出引入WM多模式匹配思想的压缩算法(WM_LZSS压缩算法),该算法通过一个模式库自动记录在已读入文本中出现过的匹配长度较长的短语,在压缩的过程中预先对文本进行多模式匹配。通过对WM_LZSS算法测试的实验,表明WM_LZSS压缩算法在文本文件压缩应用中压缩比比LZSS算法高,特别适合于对文本相似度高的长文件进行压缩。  相似文献   

5.
何志兰  崔杜武 《计算机工程》2005,31(21):176-178
电子词典西文只有26个大小写字母,而汉字成百上千,利用此数据特点提出分别对中文和西文采用不同的压缩算法,此算法是对传统电子词典采用Huffman编码,将中文和西文不加区分混合进行压缩编码,对所存在缺陷进行改进。使电子词典的压缩率和压缩速度大大提高,同时在保证压缩率相等的情况下,使编码均匀分布减少预分配内存空间和增强抗误码的能力。最后通过实例比较了两种压缩的效率,说明新压缩方案的正确性和可行性。  相似文献   

6.
为了理解高效的文本压缩算法,探究文本压缩的原理和意义,对基于BWT的字符串轮转理论进行了深入的理解;游程编码作为一种简单有效的压缩方式,在数据压缩中有十分广泛的应用,文本压缩的研究对于多媒体的压缩研究有着十分重要的意义.把BWT结合游程编码对选定的文本信息进行了压缩比较,实验证明了该算法的高效性和实用性.同时对基于BWT压缩算法的发展趋势进行了展望及分析.  相似文献   

7.
DNA序列虽然只由四个碱基组成,但数据量却非常巨大。有效的压缩DNA数据能大量节省传输的时间开销。目前已经有一些DNA序列专用的压缩算法,如Biocompress,DNACompress和CTW+LZ。虽然这些算法可以获得较好的压缩比,但是由于采用了传统的CTW算法或Iz系列的字典替换,导致花费太多的时间。为了解决这一问题,提出使用改进的RLE,差分编码和可变长整形等一系列编码方式进行多重压缩的高效压缩算法Dzip。标准DNABenchmark数据测试的实验数据表明,该算法与现行DNA专用压缩算法相比,加速比至少为28。  相似文献   

8.
GML(Geography Markup Language)已成为异构环境下地理空间数据编码、交换和集成的事实标准。由于GML空间数据具有海量性以及GML文档含有大量的冗余信息,导致GML文档体积庞大,影响了系统的集成性能。提出一种基于压缩技术的高效集成方法,将GML文档的结构和数据分离,对文档中的结构数据采用基于词组的字典压缩算法进行压缩,对坐标数据采用去精度的增量压缩的方法压缩。实验结果表明,该方法的压缩性能优于传统压缩方法,且能明显提高GML空间数据的集成性能。  相似文献   

9.
基于字典的DNA序列压缩算法研究及应用*   总被引:1,自引:0,他引:1  
在现有DNA序列数据压缩算法的基础上,以DNA序列数据的存储效率及生物学解释综合考虑,设计并实现了基于字典的DNA序列压缩算法DNADCompress.算法核心包括重复子串字典建立、字典项筛选、字串压缩编码三方面.实验数据表明,数据压缩算法压缩效果达到常用DNA序列压缩算法水平,并为序列生物学解释提供了基础.  相似文献   

10.
改变传统的一幅图像对应一个压缩字典、一幅图像固定一张量化表的分形图像压缩方法,提出基于M集和Logistic映射的分形图像压缩编码算法.采用函数f(z)=z2 c,生成M集曲线,使用Logistic混沌映射生成的量化表量化M集曲线,生成图像块,构成丰富的压缩字典.编码时将量化后的M集图像块与压缩字典中的图像块进行匹配,选出满足条件的图像块,然后对该图像块进行编码;解码时读取压缩字典,重建图像.该算法生成了丰富的压缩字典,解码图像质量高,并且比传统分形图像压缩算法压缩比高.  相似文献   

11.
结合中文文本中的汉字编码方式、大字符集以及重复字串不长三个不同于英文文本的结构特点对LZW算法从读取数据方式、基本码集和字典码值输出方式三方面进行了修改。改进后的算法对中文文本的压缩比平均比LZW19提高了19%且压缩和解压速度与后者相当,其对较长的中文文本的平均压缩比已接近或者超过了压缩软件WinRAR。  相似文献   

12.
提出了以固定字典来代替传统的变化字典的方法实现分形图像编码。通过改变Mandelbrot集参数生成不同的曲线,并对其进行灰度值量化,得到相应得图像块,这样能构成丰富的压缩字典。在编码过程中,只需将待编码的图像块与字典中的图像块进行匹配选出满足条件的图像块,然后对相应的图像块进行编码,就可以实现图像的分形编码压缩。通过实验证明算法实现可行、有效,图像压缩效果理想,较大地提高了分形编码的速度。  相似文献   

13.
汉语文本动态字母表0阶模型算术编码   总被引:1,自引:1,他引:0  
本文探讨汉语文本的0阶统计模型的构造方法,提出了一个卓有成效的汉语文本压缩算法。仅仅凭借这一最初级的模型,汉语文本的编码效率已经超过LZ与Huffman编码的混合算法。由于0阶统计模型是各种高阶统计模型的基础,所以本文对汉语以及其他大字符集文种(如日文、朝鲜文)的文本压缩研究具有重要的参考意义。  相似文献   

14.
Chinese word segmentation is a difficult and challenging job because Chinese has no white space to mark word boundaries. Its result largely depends on the quality of the segmentation dictionary. Many domain phrases are cut into single words for they are not contained in the general dictionary. This paper demonstrates a Chinese domain phrase identification algorithm based on atomic word formation. First, atomic word formation algorithm is used to extract candidate strings from corpus after pretreatment. These extracted strings are stored as the candidate domain phrase set. Second, a lot of strategies such as repeated substring screening, part of speech (POS) combination filtering, and prefix and suffix filtering and so on are used to filter the candidate domain phrases. Third, a domain phrase refining method is used to determine whether a string is a domain phrase or not by calculating the domain relevance of this string. Finally, sort all the identified strings and then export them to users. With the help of morphological rules, this method uses the combination of statistical information and rules instead of corpus machine learning. Experiments proved that this method can obtain better results than traditional n-gram methods.  相似文献   

15.
金融业务数据库的数据压缩方法   总被引:1,自引:1,他引:0       下载免费PDF全文
贾永洁  王耀强  郑骏 《计算机工程》2008,34(11):281-282
针对金融业务中实时数据库的数据存储特点,提出结构混合压缩(SMC)算法。SMC算法利用金融数据具有纯文本、数据分散和数据项内重复少的特点,以哈夫曼编码作为算法基础,根据词频将单字和词组混合,在哈夫曼树中引入数组结构,对文本数据进行压缩。测试结果表明,SMC算法的平均数据压缩率比原始哈夫曼算法提高了约13%。  相似文献   

16.
As no database exists without indexes, no index implementation exists without order-preserving key compression, in particular, without prefix and tail compression. However, despite the great potentials of making indexes smaller and faster, application of general compression methods to ordered data sets has advanced very little. This paper demonstrates that the fast dictionary-based methods can be applied to order-preserving compression almost with the same freedom as in the general case. The proposed new technology has the same speed and a compression rate only marginally lower than the traditional order-indifferent dictionary encoding. Procedures for encoding and generating the encode tables are described covering such order-related features as ordered data set restrictions, sensitivity and insensitivity to a character position, and one-symbol encoding of each frequent trailing character sequence. The experimental results presented demonstrate five-folded compression on real-life data sets and twelve-folded compression on Wisconsin benchmark text fields. Edited by M.T. Ozsu. Received 1 February 1995 / Accepted 1 November 1995  相似文献   

17.
一种新的非线性分形压缩算法   总被引:1,自引:1,他引:0       下载免费PDF全文
郑莹  李光耀  孙燮华 《计算机工程》2008,34(11):21-22,2
提出一种基于Julia-CK集和Logistic映射的非线性分形压缩算法。用Carotid-Kundalini函数生成Julia-CK集,并用Logistic映射生成伪随机数填充量化表。将量化后的Julia-CK集分割成4 4的小图像块,再变换成圆盘。圆盘经过旋转后重新变换为正方形,对Julia-CK集进行适当的分类。编码时在同类中寻找匹配的图像块,扩充了原有的仿射变换,得到一个丰富且可通用的压缩字典,有效地打破图像和数据字典之间的一一对应关系。实验表明,相比于Barnsley提出的经典分形压缩方法,新算法使压缩比提高约36%,重建图像的峰值信噪比提高约27%,具有良好的压缩比,获得了高质量的解码图像。  相似文献   

18.
基于邻接矩阵全文索引模型的文本压缩技术   总被引:1,自引:0,他引:1  
基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型,但是它的最优符号集的寻找算法是NP完全问题,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法,发现一个局部最优的单词表。这种方法的关键是将文本的邻接矩阵索引作为统计基础,邻接矩阵全文索引是论文提出的一种新的全文索引模型,它忠实地反映了原始文本,很利于进行原始文本的初步统计,因此算法效率得以提高,其时间复杂度与文本的汉字种数成线性关系,能够适应在线需要。并且,算法生成的压缩模型的压缩比是0.47,比基于字的压缩模型的压缩效率提高25%。  相似文献   

19.
黑白文档图像的高倍压缩   总被引:2,自引:0,他引:2  
黑白文档图像不同于常规的文本和图像文件,使用滨的压缩自治人以取得较高的压缩倍数,文中分析了常规文档的特性及使用常规算法的优缺点,并针对共牧场生,提出了一处无失真压缩算法,大大提高了压缩倍数,它采用文中提出的分块编码和游程编码的混合编码方法,实验证明,该方法的压缩比字典(ARJ,PKZIP,LZW等)约提高0.5-1.2,比常规游程编码提高的0.3-0.8  相似文献   

20.
应用扩展前缀编码的测试数据压缩方案   总被引:1,自引:1,他引:0  
提出一种扩展前缀编码的测试数据压缩方案,采用变长到变长的编码方式对任意长度的0游程和1游程编码,代码字由前缀和尾部组成,用扩展的前缀表明编码的游程类型;不引入额外的标记位,并能有效地压缩芯片测试数据量.理论分析和实验结果表明:扩展前缀编码能取得比FDR编码更高的压缩率,能够更好地适应于多样的编码对象.解压时使用一种特殊的计数器简化控制电路,解码电路硬件开销小且较易实现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号