首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
互联网的普及和飞速发展,使Internet成为世界上最大的信息积聚地,但Internet积聚的信息不同与以往的数据挖掘源,其内容大多是半结构化或非结构化的文本。如何有效的对半结构化或非结构化的文本信息进行挖掘即文本挖掘已成为当今热门的研究方向。  相似文献   

2.
结合中文文本中的汉字编码方式、大字符集以及重复字串不长三个不同于英文文本的结构特点对LZW算法从读取数据方式、基本码集和字典码值输出方式三方面进行了修改。改进后的算法对中文文本的压缩比平均比LZW19提高了19%且压缩和解压速度与后者相当,其对较长的中文文本的平均压缩比已接近或者超过了压缩软件WinRAR。  相似文献   

3.
LZW无损压缩算法的实现与研究   总被引:27,自引:2,他引:27  
王平 《计算机工程》2002,28(7):98-99,150
通过程序设计实现了LZW文本压缩算法,并对其进行了改进以适合于中文压缩,改进后的压缩程序的测试结果证明改进是有一定效果的,相比于标准LZW压缩算不,压缩率有了一定程度的降低,对于中长文件,其压缩效果更好,对于英文文本的压缩效果也要好于普通LZW算法,有一定的实用价值。  相似文献   

4.
如今嵌入式系统应用为各种行业提供了更先进的解决方案,这也使行业之间的数据交换复杂性提高,相应地也增加了系统对数据存储容量的需求。如何在不增加系统硬件存储器成本的前提下,提高系统的数据存储容量是目前嵌入式系统的设计与开发者急待探索与解决的问题。简要阐述了Flash存储结构和压缩原理,详细介绍了LZW压缩算法原理,并用实例说明了LZW压缩算法的压缩过程,通过代码调试验证了LZW无损数据压缩在Flash存储中的优势。  相似文献   

5.
WHISK系统是一个半自动的IE系统,对结构化、半结构化的Web文本它都能使用生成的抽取规则进行信息抽取.但是它在规则学习过程中规则不能保证以最优的方式进行扩展,且生成规则集的时间较长.文中主要针对这些问题,提出利用遗传算法改进WHISK的监督式学习算法,并采用移除法生成规则集.实验结果表明此方法在效率和召回率上都得到提高.  相似文献   

6.
中文文本压缩的自适应算法   总被引:7,自引:3,他引:4  
本文初步分析了中文文本的存储结构特征, 并将其应用于文本压缩。对LZW(Lemple Ziv Welch)算法进行了两方面的改进:1.采用变码长编码, 对短文本的压缩有显著的效果;2.建立一删除规则, 当码本加满以后对码本进行删除整理, 使编码过程一直能够积累输入文本的相关信息, 对较长文本, 其压缩效果比基本LZW算法有显著改善。  相似文献   

7.
半结构化数据查询重写   总被引:10,自引:1,他引:10  
查询重写是数据库研究的一个基本问题,它和查询优化,数据仓库,信息集成,语义缓存等问题紧密相关,目前Internet上存在海量的半结构化数据,在信息集成过程中产生了大量半结构化视图,如何利用物化半结构化视图来重写用户查询,减少响应时间成为研究热点问题,上述问题本质上是NP问题,提出了一种半结构化查询重写的新方法,该方法在保证算法正确性和完备性的基础上,利用半结构化数据特点和查询子目标之间的关系,减少了指数空间的查询重写候选方案生成,理论分析表明,它极大地降低了算法的代价。  相似文献   

8.
提出了一种基于LZW算法的入侵检测算法。使用系统调用序列作为特征数据,采用LZW算法对系统调用序列数据进行变长短序列划分,同时对短序列进行压缩,并在应用的过程中对LZW算法进行适当调整以适应序列的划分。通过贝叶斯多元自适应回归样条(贝叶斯MARS)模型,对正常和异常序列进行分类并标识入侵。实验结果表明,基于LZW变长序列划分方法符合系统调用序列的内在规律,在较高压缩比的情况下,获得了很好的检测性能。LZW算法与贝叶斯MARS相结合的入侵检测算法,对各种数据表现稳定,具有一定可行性和实用性。  相似文献   

9.
Web文本信息的特征获取算法   总被引:17,自引:0,他引:17  
Internet的发展为人们提供了大量的信息资源,Web文本挖掘是从非结构化的文本中发展潜在的、有价值知识的一种有效技术,本文以矢量空间模型为Web文本的表示方法,提出了一个基于遗传算法的Web文本特征抽取算法,进一步提高了Web文本诉处理效率,为文本的分类、聚类以及其它处理提供了简炼的特征表示方法,实验证明,该种处理方法有效地降低了文本特征矢量的维数。  相似文献   

10.
嵌入式Internet技术实现了对嵌入式系统的远程监视与控制;分析了嵌入式Internet技术的原理及实现方法,为提高对嵌入式系统控制的实时性,需要提高嵌入式Internet系统的数据处理能力;为此,以集成了外设协处理器XGATE模块的飞思卡尔MC9S12X系列微处理器为核心,基于CAN总线和CP2200网络接口芯片,进行系统的硬件和软件设计;实验测试表明,计算机通过Internet与现场设备之间通信可进行快速、稳定的通信,通信速率可达80kbps,从而实现了对嵌入式系统的远程监控。  相似文献   

11.
在文本压缩中联合使用LZSS和LZW   总被引:3,自引:0,他引:3  
本文分析了LZ77和LZ78算法在文本压缩中各自的长处和不足,以它们的实用算法LZSS和LZW的中文文本改进算法LZSSCH和LZWCH为基础,设计了联合使用LZ77和LZ78原理的LZSWCH算法。算法具有良好的通用性、实时性,对9个各种长度的样本文本文件取得的压缩比均高于LZSS和LZW,高出幅度分别达到6~19%。算法无须任何预处理,并可用于压缩其它文字的文本文件。  相似文献   

12.
针对中文文本结构的特点以及传统压缩算法对中文文本压缩的不足,提出并实现了一个基于PDC编码的中文文本压缩算法。该算法采用的是字典压缩方式。根据单个汉字在中文文本出现的概率,采用Huffman编码方式进行前缀变长编码;定义由某个汉字为前缀的词组和短语的深度;对具有相同前缀和相同深度的词组和短语进行局部的定长编码,构成一部压缩编码字典。通过对相同文本分别使用该算法和传统的LZW和LZSS编码算法压缩后得到的数据结果对比,压缩率有2.53%~40.48%的提高,表明该压缩算法有较好的压缩效果。  相似文献   

13.
现代化战争中对战情信息及时的发送有着较高的要求,对信息压缩可以实现对战场信息快速有效传输.针对战情信息的特点选择LZW压缩算法,论文介绍了LZW算法原理,在LZW算法的基础上增加了战情动态词典、重复编码器.在多项改进的基础上最后通过实例验证,改进后的算法在战情信息压缩中获得了很好的效果.  相似文献   

14.
远程故障诊断系统通信数据压缩技术研究与验证   总被引:1,自引:0,他引:1  
根据远程故障诊断的测试数据的网络传输特点,在详细分析和比较了多种数据压缩算法的基础上,针对LZW算法字典列表长度有限、查找时间长等问题,利用加入了动态延伸列表长度、根据压缩比例调整已有的字典内容和哈希函数查找等方法,对LZW算法提出了改进措施;同时,引入MPEG帧间压缩的思想,设计了一种新的"周期性差值压缩方法",将改进的LZW数据压缩算法与"周期性差值压缩方法"相结合,构成了更有效的级联数据压缩方法,有效地提高了数据压缩比率和效率,并且该算法的处理速度能够满足远程故障诊断系统对通信的要求。  相似文献   

15.
压缩技术在数据采集系统中的应用   总被引:1,自引:0,他引:1  
介绍了一种通用编码的数据压缩技术-LZW算法,并以此算法为核心,对采集的数据预先作有条件的有损压缩和自适应编码变换,在压缩数据的同时,使数据和LZW算法要求的数字输入格式相匹配,使之能更好地发挥作用,经实际验证,数据经有压缩,自适应编码和LZW压缩之后,达到较高的压缩率,该方法具有通用性好,易于实现的特点。  相似文献   

16.
LZW算法优化及在雷达数据压缩中的应用   总被引:3,自引:0,他引:3  
LZW算法是一种性能优异的字典压缩算法,具有通用性强、字典在编解码过程中动态形成等优点,在无损压缩领域应用广泛。介绍了其算法原理,给出了程序实现的编码步骤,并选取一个实例进行详细分析。设计了一种哈希表对程序进行优化,显著降低检索字典时间,分别选取图片、雷达数据、文本文件进行编码速度对比,获得了较好的效果。最后,使用不同的数据分段选取若干典型的真实雷达数据进行试验,并与游程编码进行了对比,得出若干结论。  相似文献   

17.
RWM&DEWS数据二次压缩算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
对柑橘实时水分监控与旱情预警系统中的数据参数进行拟合分析,在探讨SDT和LZW 2种压缩算法的基础上,提出一种二次压缩算法:第1次压缩采用基于SDT算法思想的甲均值方法;第2次压缩采用改进的LZW算法实现.对压缩效果进行测试,仿真实验证明,在相同的硬件和软件环境下,该算法能实时、高效地压缩数据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号