首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
提出近似重复矢量(Approximate Repeat Vector,ARV)模型用于DNA序列冗余片段的描述.通过将数据生物信息学特征引入压缩预处理,并使用ARV矢量构造编码码本,提出了非对称DNA序列压缩算法BioLZMA-2.算法引入基于粒子群优化的Memetic改进方法CLIPSO-MA用于压缩码本的智能优化设计,有效提升了编码性能.在标准测试序列上的实验结果表明,BioLZMA-2可获得比现有DNA序列数据压缩方法更高的压缩率.  相似文献   

2.
DNA序列数据压缩技术综述   总被引:1,自引:0,他引:1       下载免费PDF全文
纪震  周家锐  姜来  Q.H.Wu 《电子学报》2010,38(5):1113-1121
DNA序列数据压缩技术是根据DNA数据特点针对性地构造编码算法,以提升整体压缩效率的数据处理方法.本文介绍了DNA序列的基本概念及数据特点,DNA序列压缩算法的一般性描述,DNA序列的典型压缩算法,以及评估DNA序列压缩算法性能的重要指标,并对DNA序列压缩算法未来的发展趋势做了展望.  相似文献   

3.
针对生物信息学中DNA多序列比对问题,提出了一种基于遗传算法和模拟退火算法相结合的求解算法:在遗传模拟退火算法中,利用模拟退火算法针对遗传算子进行改进来提高算法的效率,由遗传算法进行全局搜索,模拟退火算法用于局部寻优,防止遗传算法的早熟收敛。通过与经典比对算法ClustalX和经典遗传算法进行比对研究,结果表明该算法是有效的。  相似文献   

4.
设计高质量的核酸分子集合能有效提高DNA计算的可靠性、有效性和可求解问题的规模。DNA分子需要满足热力学约束、相似度约束、GC含量约束等多个相互冲突的目标函数,是典型的多目标优化问题。该文提出一种多目标进化策略(MOES)算法求解DNA分子序列设计问题,算法设计了随机碱基变异算子实现高效的局部搜索和全局搜索。改进的评价函数综合考虑了候选解的支配关系和冲突目标的平衡程度,选取符合DNA编码约束的核酸序列。实验结果证明,该文提出的算法具有高效的搜索效率和快速收敛能力,可以产生高质量的DNA序列集合,优于其他对比算法产生的DNA分子序列集合。  相似文献   

5.
<正>DNA序列的分类是生物信息学的主要研究任务之一,如何提取DNA序列中的特征是影响分类精度的重要因素。为了更好地保留序列中碱基的信息,本文提出了一种基于碱基距离和相关性的特征提取方法。以H1N1、H5N1、COVID-19等6种病毒作为研究对象,将DNA序列转化为特征向量,并用KNN算法对冠状和非冠状病毒进行分类。实验结果表明该方法能提高分类的准确率。据估计地球上约有1000万~1亿种生物,如此庞大的数据使得生物分类面临着巨大挑战[1],因此DNA序列的分类成为了人们的研究热点,也是当前生物信息学的主要研究任务之一。  相似文献   

6.
序列相似性分析是生物信息学中一个重要问题,对于研究物种的进化起源有着重要的意义.序列相似性算法包括基于序列比对的方法及非比对方法两种.基于比对的方法对于序列整体的衡量略有欠缺;非比对算法中有DNA曲线化方法以及比较序列各自整体碱基分布间的信息量差异的方法,只是考虑了序列整体信息间的差异,但未考虑序列各个位点间的差异.因...  相似文献   

7.
全局运动信息在视频分析中起着重要的作用.本文根据MPEG编码特点,提出了一种从MPEG压缩域中快速有效地进行全局运动参数估计的算法.该算法充分利用了MPEG压缩码流中的信息,通过提取预测残差DC图像的运动背景区域,估计全局运动参数,从而保证了参数估计的准确性,有效地克服了已有文献中仅仅采用运动矢量进行全局运动估计的局限性.根据不同的MPEG测试序列的对比分析,结果表明,本算法可快速准确地对MPEG视频序列进行全局运动信息估计,同时具有很高的鲁棒性.  相似文献   

8.
研究了两棵平衡树之间的操作,通过两棵平衡树的同时操作,完成两个集合之间的各种运算,如测试集合包含关系(ISSUBSET)、求集合的并(UNION)、求集合的交(INTERSECT)、求集合的差(DEDUCT)、按关键字序列的连接(CONCATENATE)、拆分(SPLIT)、空间压缩(COMPACT)等算法.重要算法给出了时间复杂度证明.这些算法的实现和良好的时间复杂度,说明BT很好地解决了集合的存储和运算工作,解决了"2-3"树完成集合运算的空间利用率低和个别集合操作不相容问题.  相似文献   

9.
基于关键字树的DNA多序列星比对算法   总被引:1,自引:0,他引:1       下载免费PDF全文
邹权  郭茂祖  王晓凯  张涛涛 《电子学报》2009,37(8):1746-1750
 在构建进化树、比较单体型序列等生物信息学研究中,需要比对多个相似程度很高的DNA序列.对于数量多、序列长的多序列比对问题,通常使用时间复杂度较低的星比对算法.然而在处理大规模数据时,星比对的平方时间复杂度依然不能满足需要.因此,在星比对思想的基础上,本文结合关键字树理论,先找出完全匹配的区域,然后比对剩余区域,以达到降低期望时间复杂度的目的.两组实验证明了本文算法的有效性,在取得相同比对效果的情况下,本文算法运行时间小于其他方法.  相似文献   

10.
基因组测序是生物信息学中最基本的研究方向之一,然而大多数生物的基因组都不可能一次性获得,需要利用序列拼接技术对实验中获得的DNA片段进行拼接操作.目前,测序过程中获得的DNA片段越来越短,基于Euler路径的拼接算法在处理这种短片段拼按时具有优势.在Euler路径算法中,一个关键的步骤是de Bruijn图的构建,一直...  相似文献   

11.
无线传感器网络(WSN)中传输的数据具有相关性和冗余性。如何有效降低网络中的数据量,延长网络生命周期,始终是WSN的研究热点之一。该文基于WSN中数据序列的相关性,提出一种两步数据压缩算法(TSC-SC)。网络中的簇首和簇内节点执行各自的压缩算法:簇首首先执行相关性分组算法,将数据分组,减少簇内节点的计算量以及消除簇内数据的空间相关性;簇内节点对多属性数据分类压缩,并将压缩参数传至簇首,簇首解压后再次进行分类压缩,进一步消除数据相关性,减少节点数据冗余度,降低通信能耗。为实现对压缩算法的综合性能评价,考虑基本的压缩要求和算法的计算能耗,提出了基于能量判别的算法评估模型(NCER)。仿真结果表明TSC-SC算法可以有效降低压缩比和压缩误差,充分减少数据传输量和网络的通信能耗,利用NCER指标能够直观地评价算法的性能。  相似文献   

12.
一种结合空谱聚类的高光谱图像快速压缩算法   总被引:1,自引:0,他引:1  
对高光谱图像进行快速压缩已经成为了高光谱遥感领域的研究热点.针对现有的高光谱图像数据量大和压缩所需运算量大的问题,提出了一种基于频段聚类+主成分分析(PCA)与空间分类相结合的高光谱图像快速压缩算法.首先利用最大相关度频段聚类算法(MCBC)将频段聚类,接着将每一类频段用PCA压缩,然后将压缩后的图像利用聚类信号子空间投影(CSSP)算法进行图像分类,最后在每一类内利用LBG(Linde Buzo Gray)算法通过矢量量化快速完成高光谱图像的编码.在不同的压缩比下进行实验,结果表明提出的高光谱图像压缩算法能在保证良好的图像恢复质量的前提下,大幅度降低运算复杂度,实现高光谱图像的快速压缩.  相似文献   

13.
Traditional clustering algorithms (e.g., the K-means algorithm and its variants) are used only for a fixed number of clusters. However, in many clustering applications, the actual number of clusters is unknown beforehand. The general solution to this type of a clustering problem is that one selects or defines a cluster validity index and performs a traditional clustering algorithm for all possible numbers of clusters in sequence to find the clustering with the best cluster validity. This is tedious and time-consuming work. To easily and effectively determine the optimal number of clusters and, at the same time, construct the clusters with good validity, we propose a framework of automatic clustering algorithms (called ETSAs) that do not require users to give each possible value of required parameters (including the number of clusters). ETSAs treat the number of clusters as a variable, and evolve it to an optimal number. Through experiments conducted on nine test data sets, we compared the ETSA with five traditional clustering algorithms. We demonstrate the superiority of the ETSA in finding the correct number of clusters while constructing clusters with good validity.  相似文献   

14.
汉语文本聚类及其算法设计   总被引:1,自引:0,他引:1  
主要针对传统的聚类算法倾向于识别大小类似的球形聚类簇,且对离群数据较为敏感等问题,利用聚类簇代表点选取的方法,同时结合基于人进行聚类判断所遵循的基本原则,即聚类中对象间距离应小于聚类间距离,设计了一种有效的聚类算法,实验结果表明算法是有效的。  相似文献   

15.
Cluster analysis divides the data into groups of individuals that are homogeneous and separated from other groups. In consideration of the homogeneity, principal component analysis is usually used to reduce the redundancy of storages inside each cluster through the projection of data based on the principal components. Such data reduction is applied in this paper to images to achieve image compression. Moreover, genetic algorithm is employed in this study to determine the optimal number of components that preserve most of the information of the original data. Based on this mechanism, we develop an iterative clustering method for image coding. The proposed method effectively removes the coding redundancy and increases the number of principal components in some clusters in order to improve the reconstructed effect of certain clusters with complex structures. Consequently, the retrieved image has high quality and good visual effect.  相似文献   

16.
In previous work we have described a technique for the compression of positron emission tomography (PET) image data in the spatial and temporal domains based on optimal sampling schedule designs (OSS) and cluster analysis. It can potentially achieve a high data compression ratio greater than 80:1. However, the number of distinguishable cluster groups in dynamic PET image data is a critical issue for this algorithm that has not been experimentally analyzed on clinical data. In this paper, the problem of experimentally determining the ideal cluster number for the algorithm for PET brain data is addressed.  相似文献   

17.
The estimation of the number of clusters (NC) is one of crucial problems in the cluster analysis of gene expression data. Most approaches available give their answers without the intuitive information about separable degrees between clusters. However, this information is useful for understanding cluster structures. To provide this information, we propose system evolution (SE) method to estimate NC based on partitioning around medoids (PAM) clustering algorithm. SE analyzes cluster structures of a dataset from the viewpoint of a pseudothermodynamics system. The system will go to its stable equilibrium state, at which the optimal NC is found, via its partitioning process and merging process. The experimental results on simulated and real gene expression data demonstrate that the SE works well on the data with well-separated clusters and the one with slightly overlapping clusters.  相似文献   

18.
基于无监督聚类的入侵检测方法   总被引:32,自引:0,他引:32       下载免费PDF全文
罗敏  王丽娜  张焕国 《电子学报》2003,31(11):1713-1716
研究了基于无监督聚类的入侵检测算法.算法的基本思想是首先通过比较无类标训练集样本间的距离来生成聚类,并根据正常类比例N来确定异常数据类别,然后再用于真实数据的检测.该方法的优点在于不需要用人工的或其他的方法来对训练集进行分类.实验采用了KDD99的测试数据,结果表明,该方法能够比较有效的检测真实网络数据中的未知入侵行为.  相似文献   

19.
何宏  谭永红 《电子学报》2012,40(2):254-259
 如何确定聚类数目一直是聚类分析中的难点问题.为此本文提出了一种基于动态遗传算法的聚类新方法,该方法采用最大属性值范围划分法克服划分聚类算法对初始值的敏感性,并运用两阶段的动态选择和变异策略,使选择概率和变异率跟随种群的聚类数目一致性变化,先进行不同聚类数目的并行搜索,再获取最优的聚类中心.七组数据聚类实验证明该方法能够实现数据集最佳划分的自动全局搜索,同时搜索到最佳聚类数目和最佳聚类中心.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号