首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
中文文本压缩的自适应算法   总被引:7,自引:3,他引:4  
本文初步分析了中文文本的存储结构特征, 并将其应用于文本压缩。对LZW(Lemple Ziv Welch)算法进行了两方面的改进:1.采用变码长编码, 对短文本的压缩有显著的效果;2.建立一删除规则, 当码本加满以后对码本进行删除整理, 使编码过程一直能够积累输入文本的相关信息, 对较长文本, 其压缩效果比基本LZW算法有显著改善。  相似文献   

2.
本文给出一优化的无级压缩变换算法, 可将宋体、楷体、黑体、仿宋体的48x48点阵汉字无级压缩为48点阵以下的任意点阵, 且压缩变换后的点阵结构完整, 字中相应笔划粗细均匀, 字形美观。  相似文献   

3.
LZSS文本压缩自满实现与研究   总被引:1,自引:0,他引:1  
设计实现了LZSS压缩算法,为了适合于中文压缩,作者对其进行了改进,通过测试证明改进是有效的,相比于标准LZSS压缩算法,压缩比有了很大幅度的提高,对于中文文本长文件,其最大压缩比已达到20左右,对于英文文本文件的压缩效果也好于LZSS12算法;同时,得出了LXSS算法的极限压缩率,有重要的实际应用价值。  相似文献   

4.
汉语文本压缩研究及其应用   总被引:3,自引:3,他引:3  
汉语文本压缩至今很少受到重视, 然而, 作为许多计算机应用系统的支撑技术, 其重要性毋庸置疑。本文结合汉语文本的特征对现行文本压缩技术进行评述, 指出汉语文本理论上可能获得的平均压缩比率(〉3.9) 及现行压缩算法所能达到的水平(1.6左右)。此外, 讨论了汉语文本压缩的研究方向以及几种典型的应用。  相似文献   

5.
汉字字形结构式压缩方法的研究和实现   总被引:2,自引:0,他引:2  
1 引言汉字字型技术作为计算机汉字信息处理技术的重要组成部分,经历了点阵汉字、矢量汉字发展到现在广泛应用的曲线轮廓汉字,其研究和应用取得了长足的进步。汉字字形有两个特点:汉字是基本笔划和字根在二维空间的组合,其字形结构复杂,笔划数目变化大,而且不同字体的形状特点也变化很大;汉字的字符集十分庞大,其中一二级汉字字符集  相似文献   

6.
为了理解高效的文本压缩算法,探究文本压缩的原理和意义,对基于BWT的字符串轮转理论进行了深入的理解;游程编码作为一种简单有效的压缩方式,在数据压缩中有十分广泛的应用,文本压缩的研究对于多媒体的压缩研究有着十分重要的意义.把BWT结合游程编码对选定的文本信息进行了压缩比较,实验证明了该算法的高效性和实用性.同时对基于BWT压缩算法的发展趋势进行了展望及分析.  相似文献   

7.
Moffat  A  刘蕊红 《软件》1989,(8):655-665
  相似文献   

8.
基于中文词编码的压缩算法ZHCP的实现   总被引:2,自引:0,他引:2  
本文提出并实现了一个基于词编码的ZHCP中文文本压缩算法,通过大量的对相同文本分别使用传统编码算法与ZHCP算法压缩后得到的结果数据对比,表明基于词编码的ZHCP压缩算法有较好的压缩效果。  相似文献   

9.
本文针对信封地址的识别,设计了一种手写汉字文本切分的协动计算方法。由于考虑了汉字及其左右部件搭配的语义信息,从而取得了较高的正确切分率。在1000份样本信封文本中,无连字时为100%,有连字时也有95%。  相似文献   

10.
基于位处理技术,提出一个简易快捷的中文文本压缩方法,针地既要压缩又要加密的常见情况,给出同时完成两项任务的新方法,此法的关键是在缩文尚未形成之前,交换被压缩数据的位,这种把压缩与加密合于一体的做法,可明显减少时间开销,增强压缩密文的安全性。既  相似文献   

11.
中文文本压缩的LZSSCH算法   总被引:7,自引:2,他引:7  
本文结合中文的特点,从建模编码、自适应索引扩位和最大索引位长等方面对LZSS 算法进行了修改,得到的LZSSCH 算法对以中文为主的中西文混合文本文件的压缩比平均与LZSS 算法高出约8 % ,而其压缩和扩展速度以及可执行程序的大小均与LZSS算法相当。算法无须任何预处理,还可用于压缩其它非拼音文字文本文件。  相似文献   

12.
13.
本文针对功能很强的PD软件(即MICROCADDS)中汉字标注极不方便的缺陷,用其内嵌的用户编程语言UPL开发一套有汉语拼音和常用图形,符号输入功能的内嵌式矢量汉字系统,为PD软件在我国的推广应用提供了良好的汉字支持。  相似文献   

14.
允许错误的(汉字)字符串快速检索技术   总被引:2,自引:1,他引:2       下载免费PDF全文
在计算机应用的诸多领域中都会遇到字符串似检索问题。本提出了一种技术。它通过应用搜索状态向量及字符-模式匹配向量,将字符串匹配比较转化简单的整数字位运算,有效地解决了字符/汉字串的相似匹配问题,中也给出了实现算法并分析了算法的复杂性。  相似文献   

15.
本文介绍了一个用特征向量元素模糊分类的手写汉字识别系统,系统在预处理时采用字心中心法,一级分类用笔道密度函数特征的向量元素模糊方法分类,详细识别用外廓方向贡献度特征,系统实验表明本识别方法是有效的。  相似文献   

16.
为了提高Symbian S60数据库中文本数据存储的效率,同时使数据库应用具有良好的响应速度,在研究该类数据库的特点和"字典码"压缩算法的基础上,提出通过提取隐含在"字典码"压缩算法压缩的文件中的字典并独立存储和维护,实现对数据库记录级的文本压缩。该方法只有在用户用到数据库记录数据时,相应记录中被压缩的数据才被解压缩,因此数据库的响应速度快,内存占用也更少,开始运行软件时数据库加载也更快。该方法在数据记录短,文本数据量大的数据库应用中更具有优势。  相似文献   

17.
Boosting算法是目前流行的一种机器学习算法。采用Boosting家族的Adaboost.MH算法作为分类算法,设计了一个中文文本自动分类器,并给出了评估方法和结果。评价表明,该分类器和SVM的分类精度相当,而较基于其他分类算法的分类器有更好的分类精度。  相似文献   

18.
随着文本表现形式越来越丰富,文本分类研究的对象正从平文本逐渐转变为富文本,传统的平文本分类方法不能满足实际需要.分析了富文本中的结构化信息和文本内容信息,把它们作为两个重要的因素,综合考虑了其在分类中的作用,提出并实现了标签组件法、结构组件法和综合法三种富文本分类的方法.实验表明,所提出的方法有较好的分类表现,能解决OpenDocument的分类问题.  相似文献   

19.
中文文本过滤的信息分流机制   总被引:17,自引:2,他引:15  
在文本过滤中信息分流是提高过滤效率的有力的手段,为此,提出了一种新的中文文本过滤的信息分流机制.其基本思路是在概念扩充基础上,将不同用户的信息需求组织为树状结构,使其共同的部分成为共享分支,依据提出的侧面相似度和侧面匹配率来实现文本与模板的定量匹配,减弱传统的布尔模型对文本与模板匹配的严格限制,也弥补向量空间模型单纯数量化的不足,更加全面地反映用户的信息需求,试验表明该机制能够明显地提高过滤效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号