AtFT mRNA 二级结构的生物信息学预测文献综述

 2023-03-27 10:32:30

基于算法的RNA结构预测方法研究进展

摘要:RNA结构预测是结构生物信息学中的一个重要问题。RNA分子的功能特性与其结构密切相关,现阶段对于RNA结构研究的关键点是对其二级结构与三级结构的预测。常见的RNA二级结构预测算法大致可以分为基于最小自由能、基于比较序列分析、基于深度学习的方法。本文对主流的RNA二级和三级结构预测方法进行综述,为研究RNA的功能提供新的途径。

关键词:RNA结构预测; 二级结构; 三级结构; 算法

0 引言

RNA(核糖核苷酸)是遗传信息的关键载体,miRNAs、siRNAs、lncRNAs等非编码RNA的功能也逐渐引起人们的关注。RNA序列是二级结构和三级结构的基础,RNA二级结构通过假结和其他二级结构元件相互作用形成三级结构,三级结构和部分二级结构直接与蛋白质结合行使功能。其中,RNA的二级结构与基因的成熟、调节和功能密切相关[1],研究RNA功能与结构的关系,确定RNA折叠的形式和频率对于揭示RNA分子在生命过程中的作用具有重要意义[2,3]。RNA分子的二级结构描述了碱基之间的相互作用关系。确定 RNA 的二级结构不仅是 RNA 分子从一级结构到三级结构的必经之路,可以有效缩小 RNA 三级结构的解空间,降低搜索复杂度,而且二级结构也是 RNA 功能推断的重要依据。另外,特定三级结构的形成对于非编码RNA在许多生物过程中的功能至关重要。RNA可以在不同的条件下改变其三级结构,使其能够与其他RNA、配体、蛋白质或其自身相互作用[4]。为了加深对RNA在细胞过程中多种作用的潜在机制的理解,概述RNA的结构与功能之间的关系至关重要,这通常是基于对RNA结构的预测和差异分析[5-7]。因此,对RNA结构的预测研究具有重要意义。本文将对基于算法的RNA二级结构和三级结构的预测方法两个方面进行综述。

1 RNA 二级结构预测算法分析

常见的RNA二级结构预测算法大致可以分为三类:第一类是基于最小自由能的方法,第二类是基于比较序列分析的方法,第三类是基于深度学习的算法。基于最小自由能的算法中,假设RNA分子服从热力学规律,自由能越低的 RNA 结构越稳定,预测方法从所有可能的候选结构中搜索出自由能最小的结构,作为预测结果[8]。基于比较序列分析的算法原理是先对多条序列中的互补碱基进行配对,然后在已知的数据库中查找与被测序列结构相似的序列,从而来推断未知序列的二级结构[9]。另外,深度学习模型将 RNA 二级结构预测问题转化为序列中碱基的配对结果的分类问题,学习已知的 RNA 二级结构的规律,构建学习模型。

1.1 基于最小自由能的算法

碱基配对的形成可以使RNA分子的能量降低,结构更加稳定,因此最小自由能算法认为在一定温度下,RNA分子通过构象调整达成某种热力学平衡,使之自由能达到最小,形成最稳定的状态,此时的二级结构即被认为是RNA的真实二级结构[10]。该算法构建了一套复杂的自由能参数来代替简单的碱基配对数作为算法的计算对象,其基本思想就是针对各种不同的RNA基本结构单元并根据不同的碱基组成,分别用实验方法测出它们的自由能,建立起一张完整的自由能参数表。

在没有先验知识且仅提供单一序列的情况下,通过热力学计算寻找最小自由能模型是一种准确而流行的方法[11]。该模型利用高效的动态规划算法来搜索自由能最小的二级结构[12]。然而,真正的RNA二级结构可能不是自由能最小的结构。Zuker等人[13]提出了次优结构的概念。真实二级结构的自由能也许不是最小的,但也应该具有一个较小的值使得RNA分子相对稳定。因此,可以人为设定一个阈值,与自由能相差该阈值以内的所有二级结构都有可能是真实结构。所有的次优结构必须由生物学研究者进一步鉴定。

1.1.1 Mfold

Mfold[14]将RNA二级结构基序分为茎区、鼓环、内环和发夹环。不同图案的自由能有不同的计算方法。然后,通过动态规划算法组装图案,得到自由能最小的二级结构。利用该方法,可以在预测前指定先验知识;环状RNA序列的结构是可预测的,内环或凸环的最大值可以设定,配对碱基之间的最大距离可以人工确定。许多研究提出RNA二级结构影响剪接活性[15]。Yun Yang等[16]发现内含子元素是pre-mRNA剪接过程的潜在机制。这些元素在RNA二级结构水平上被发现是保守的。在其研究中,Mfold程序被用来预测内含子对。然而,Mfold只能预测单链RNA的二级结构。

1.1.2 RNAfold

RNAfold[17]基于动态规划算法、平衡分配函数和碱基配对概率的计算,在给定单链RNA序列和多个链RNA序列时分别使用最小自由能模型和多序列比对算法。无论G和U的碱基配对能否接受,RNAfold都是可靠的选择。此外,该程序可以预测单链和几种链RNA。但值得注意的是,该序列的长度不能超过300 nt。当预测多个链RNA时,该程序只能产生共识结构,而不能产生每个序列的二级结构。此外,序列总长度不能超过10K nt。

1.1.3 RNAshapes

RNAshapes[18]是一种基于抽象形状方法[19]的方法,它结合了三种RNA分析工具:代表形状分析、最大共识形状和形状概率计算。这些结构分为不同的形状类别。在一个形状类中,每个代表形状都是自由能最小的二级结构。使用这个方法,单链RNA的序列文件和多序列文件都可以被预测。对于给定的阈值,其预测形状的数量小于结构的数量,原始结构包含在其中。因此,用户可以避免研究冗余的次优结构[19]。然而,由于没有考虑折叠动力学,最小自由能的预测可能是不正确的。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。