首页 | 本学科首页   官方微博 | 高级检索  
     

基于生物信息学特征的DNA序列数据压缩算法
引用本文:纪震,周家锐,朱泽轩,Q H Wu.基于生物信息学特征的DNA序列数据压缩算法[J].电子学报,2011,39(5):991-995.
作者姓名:纪震  周家锐  朱泽轩  Q H Wu
作者单位:1. 深圳大学计算机与软件学院,广东深圳 518060;2. 浙江大学生物医学工程与仪器科学院,浙江杭州 310027;3. 利物浦大学电气电子工程系,利物浦,L69 3GJ,UK
基金项目:国家自然科学基金,霍英东教育基金会高等院校青年教师基金基础性研究课题,深圳市基础研究项目,广东省自然科学基金
摘    要:本文通过将生物学特征和生物学含义引入DNA序列数据的压缩处理中,提出了基于生物信息学特征的BioLZMA压缩算法.在BioLZMA算法中,DNA序列根据组成部分生物学含义的不同切分重组为四个集合:编码序列CDS集合、内含子序列集合、RNA序列集合以及剩余序列的集合.根据各集合中序列的具体生物学特征分别使用针对性的压缩策略进行预处理,并通过LZMA算法进行压缩编码.实验结果表明,BioLZMA算法在基准测试序列上的压缩性能优于原有的DNA序列压缩方法.特别是对于生物信息学特征清晰的长序列,算法能够在较短的时间内获得较高的压缩率.

关 键 词:DNA数据压缩  生物信息学  序列重组  近似重复片段  LZMA  
收稿时间:2009-12-16

Bioinformatics Features Based DNA Sequence Data Compression Algorithm
JI Zhen,ZHOU Jia-rui,ZHU Ze-xuan,Q H Wu.Bioinformatics Features Based DNA Sequence Data Compression Algorithm[J].Acta Electronica Sinica,2011,39(5):991-995.
Authors:JI Zhen  ZHOU Jia-rui  ZHU Ze-xuan  Q H Wu
Affiliation:1. College of Computer Science and Software Engineering,Shenzhen University,Shenzhen,Guangdong 518060,China;2. College of Biomedical Engineering and Instrument Science,Zhejiang University,Hangzhou,Zhejiang 310027,China;3. Department of Electrical Engineering and Electronics,The University of Liverpool,Liverpool,L69 3GJ,UK
Abstract:A novel bioinformatics features based DNA Sequence data compression algorithm of BioLZMA is proposed in this paper.In BioLZMA,the DNA sequence data is sliced and reformed into 4 clusters according with biological meanings:the coding sequence cluster,the intron cluster,the RNA cluster and the residual cluster.By employing pointed compression strategies in data pre-processing,the clusters are compressed separately with LZMA algorithm.Experimental results demonstrated the better performance of BioLZMA than ori...
Keywords:LZMA
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《电子学报》浏览原始摘要信息
点击此处可从《电子学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号