引言
蛋白质与 RNA 的相互作用在许多生理过程中起着重要的作用,RNA 参与很多基本的细胞生理过程,如携带来自 DNA 的遗传信息,参与形成核糖体、拼接体、端粒酶等许多核酸蛋白颗粒的结构,有些 RNA 还具有酶活性等,几乎所有的 RNA 生物功能的发挥都需要蛋白质的共同作用。 蛋白质和RNA 相互作用的研究为最终探明 RNA 和蛋白质相互作用的分子机制,从本质上认识相关细胞生理过程起着不可忽视的重要作用。 采用实验的方法预测蛋白质和 RNA 的相互作用有很大的局限性,或因实验步骤过多,既耗时又费力,也增加了实验结果的不稳定性。 因此,利用计算的方法预测蛋白质和 RNA 相互作用成为当前的一大趋势。
近年来,由于 RNA 本身的复杂性导致蛋白质和 RNA 相互作用的研究一直处于滞后状态。 但是随着实验获取的 RNA 数据以及蛋白质和 RNA 复合物数据的增加,蛋白质和 RNA 相互作用的预测方法研究成为目前非常紧迫的一项重要课题。
2011 年,Pancaldi 和 Bahler[1]首次提出了一种预测蛋白质和 RNA 相互作用的方法,选取 100 多种显着性较高的特征(包括 Gene Ontology 条款,基因和蛋白质的物理性质,mRNA 性质,蛋白质的二级结构以及基因的相互作用 genetic interactions等)构建特征向量。 然而,由于该文中用到的特征种类较多,有些特征不易获取,所以这种方法具有一定的局限性。 同年,Bellucci 等人[2]提出一种新的预测蛋白质 - RNA 相互作用的方法 catRAPID,考虑存在于氨基酸链和核苷酸链中的几乎所有关联,从中选取了倾向性较高的二级结构、氢键和范德华这三种性质,并基于此计算每个 RNA 和蛋白质对的相互作用倾向性,用于预测蛋白质和 NRA的相互作用。 以上两种方法均考虑了蛋白质和RNA 多种性质特征。 对于现有的蛋白质 - RNA 数据而言,都有着一定的局限性。 于是在 2011 年和2013 年,文献[3-4]主要基于蛋白质和 RNA 序列信息,即氨基酸和核苷酸的成分特征,构建机器学习模型。 在研究[4]中,基于蛋白质序列中氨基酸组成成分以及 RNA 序列中核苷酸组成成分,通过特征选取的方法提取有效特征构建向量,从而构建预测模型。 通过对多组数据的预测,证实了特征选取方法以及预测模型的有效性。 但是,特征选取方法也存在一个弊端,即被选取的特征在某种程度上依赖于样本数据。
本文基于蛋白质和 RNA 序列,提出了一种新的预测蛋白质 - RNA 相互作用的方法。 本文只考虑了氨基酸三联体和核苷酸的组成成分,利用其成分比率以及氨基酸三联体 - 核苷酸相互作用倾向性构建了一种新的用于衡量蛋白质和 RNA 序列对个体的三联体 - 核苷酸倾向性度量,并利用该倾向性以及氨基酸三联体和核苷酸的成分特征构建支持向量机(support vector machine,SVM)模型,预测其相互作用。
1 预测模型和算法
1. 1 氨基酸三联体 - 核苷酸的相互作用倾向性氨基酸三联体[5]指的是三个连续的氨基酸构成的一个整体。 蛋白质序列中共有 20 种氨基酸,则三联体的总个数为20 ×20 ×20 = 8 000 个;RNA 序列中有 4 种核苷酸,因而共有 8 000 × 4 =32 000 个氨基酸三联体 - 核苷酸组合。 在文献[6]中,针对一组来自于蛋白质数据库(PDB)的3149 个具有相互作用的蛋白质 - RNA 对,利用文献[6]中氨基酸三联体 - 核苷酸的相互作用倾向性度量,即文献[6]中式(1),计算得到了氨基酸三联体 - 核苷酸的相互作用倾向性值,见附表 1.
附表 1 中出示了 32 000 个三联体 - 核苷酸组合的倾向性值,这些值是针对来自 PDB 的 3149 个蛋白质 - RNA 序列对这个整体数据集而言,氨基酸三联体 - 核苷酸的相互作用倾向性,在这里称之为整体三联体 - 核苷酸倾向性。
蛋白质和 RNA 是否相互作用主要取决于氨基酸和核苷酸位点的结合上。 因此本文试图利用氨基酸三联体 - 核苷酸的倾向性这一性质构建特征向量。 为了更好地度量每一对蛋白质 - RNA 序列个体对中三联体 - 核苷酸的相互作用倾向性,我们重新定义了一个权重倾向性度量,也可称为个体三联体 - 核苷酸倾向性度量,如下:PRIPtb= IPtb×NtNP×NbNR(1)其中,P 表示蛋白质序列; R 表示 RNA 序列; t 表示蛋白质序列 P 中的氨基酸三联体; b 表示 RNA序列 R 中的核苷酸; Nt,Nb分别表示蛋白质序列P 中氨基酸三联体 t 的数量和 RNA 序列中核苷酸b 的数量; NP,NR表示蛋白质序列 P 中所有氨基酸三联体的数量和 RNA 序列中所有核苷酸的数量; IPtb表示由文献[6]中整体三联体 - 核苷酸倾向性度量公式(1)计算得到的三联体 t 和核苷酸 b 的相互作用倾向性值,它表示的是三联体 t和核苷酸 b 的整体倾向性,而本文中式(1)计算的 PRIPtb值表示的是一对蛋白质 - RNA 序列个体中三联体 t 和核苷酸 b 的相互作用倾向性。 以下均用三联体 - 核苷酸的整体倾向性表示来自于文献[6]中的度量公式(1)计算得到的倾向性,即IPtb;用三联体 - 核苷酸的个体倾向性表示由本文中的权重倾向性度量公式(1)计算得到的倾向性,即 PRIPtb.
1. 2 构建特征向量
为了预测一对蛋白质 - RNA 序列是否相互作用,利用氨基酸三联体 - 核苷酸的个体倾向性编译特征向量。 首先,根据极性和侧链容积等性质,把 20 种氨基酸分成 7 类[5],依次是: {A,G,V},{ I,L,F,P},{ Y,M,T,S},{ H,N,Q,W},{ R,K},{ D,E},{ C} . 在文献[5]中,作者利用氨基酸三联体有效地预测蛋白质 - 蛋白质相互作用。 本文中也同样使用三联体特征。 20 种氨基酸被分成7 类,此时三联体共有7 ×7 ×7 = 343类,依次可以计算出三联体 - 核苷酸的组合个数为343 ×4 = 1372 . 给定一对蛋白质 - RNA 序列,构造如下特征向量:
1. 2. 1 个体氨基酸三联体 - 核苷酸倾向性第一,利用整体倾向性度量公式[6]分别计算出所有 32 000 个三联体 - 核苷酸组合的相互作用倾向性值 IPtb;第二,基于 32000 个整体倾向性 IPtb,计算每类三联体 - 核苷酸倾向性的均值,用来表示这类三联体 - 核苷酸的倾向性值,共有343 ×4 = 1372个倾向性;第三,针对每一对蛋白质 - RNA 序列,利用权重倾向性度量公式(1)计算这对序列中每类三联体 - 核苷酸的个体倾向性,并以此作为特征向量。 此时式(1)中的 IPtb表示的是由第二步计算得到的每类三联体 - 核苷酸倾向性均值,Nt表示的是蛋白质序列中每类三联体的数量;第四,考虑到组合特征的冗余性,从中选择具有较高倾向性的三联体 - 核苷酸组合,并以这些三联体 - 核苷酸组合为基础建立特征向量。
1. 2. 2 氨基酸三联体和核苷酸成分特征第一,对于一个蛋白质序列,计算 343 类三联体的成分比率;第二,对于一个 RNA 序列,计算 4 种核苷酸的成分比率。
1. 3 样本数据
为了证明预测的有效性,本文主要针对两组不同种类的数据集进行预测:一组是来自 NPInter数据库(http:/ /www. bioinfo. org. cn/NPInter) 的367 对长链非编码 RNA ( 简称 ncRNA) 和蛋白质相互作用的数据集 PRI367,见表 1;另一组是来自PRIDB[7]的非冗余数据 集 PRI369[2],见 表 2.
PRIDB 是一个从 PDB[8]里提取的一个综合的蛋白质和 RNA 复合物的数据库。【1】
负样本数据的选取我们采纳大多数文献中的方法,即随机选取与正样本数据相同数量的蛋白质和 RNA 序列对作为负样本数据集,但是前提是排除那些已知有相互作用的蛋白质 - RNA 对。
1. 4 预测模型和算法
支持向量机(SVM)是 Vapnik 等人提出的一类新型机器学习方法,是基于统计学习理论、根据结构风险最小化原理而推导出来的。 由于 SVM 出色的学习能力,普遍应用于生物信息学研究中,很多生物信息学中的分类问题都是利用 SVM 进行分类的。 本文也采用 SVM 对蛋白质 - RNA 是否有相互作用进行分类预测。
这里简单地介绍一下支持向量分类机的模型:对于一个给定的训练集T = {( x1,c1),(x2,c2),…,(xl,cl)}其中,xi=(xi1,xi2,…,xin)T∈Rn是输入(input),表示第 i 个输入样本的 n 个特征; ci∈{- 1,+ 1}是输出(output),表示第 i 个样本所属的分类。 引入从输入空间到 Hilbert 空间的映射 φ:Rn→ H.
支持向量机就是为了寻找一个 Hilbert 空间的超平面 (ω·φ(x))+ b = 0,使得在最大间隔的基础上将样本尽可能的分开。 通过使用核函数替代样本在 Hilbert 空间中的内积,来判别样本所属类别。 考虑到 RBF 核函数优于其他核函数,本文使用 RBF 核函数。
本文利用公开软件 LibSVM(version 3. 18)训练 SVM 中的 C - SVC,其性能依赖于参数的选择,所需选择的参数为: C 和 gamma . 其中 C 是惩罚参数,是对错分点的惩罚; gamma 是 RBF 核函数中的参数,它决定向量机的推广能力。
2 计算结果及讨论
在计算中,参数 C = 200 和 gamma = 0. 1. 使用 10 折交叉验证程序评价我们的预测算法,预测结果的有效性主要考虑了以下几个指标:ACC = ( TP + TN) / ( TP + FP + TN + FN)SE = TP / ( TP + FN)SP = TN / ( TN + FP)PRE = TP / ( TP + FP)其中,TP 表示真的正样本(true positives); TN 表示真的负样本(true negatives); FP 表示假的正样本(false positives) 和 FN 表示假的负样本(falsenegatives); ACC (正确率),SE (灵敏度),SP (特指度)和 PRE (精度)。
针对两组数据集 PRI367 和 PRI369,分别取100,500,1000 个三联体 - 核苷酸组合特征建立特征向量进行计算,结果见表 1 和表 2. 其中N-feature 表示所选取的三联体 - 核苷酸倾向性的个数。 由计算结果可以看出,随着所选特征的增加,RPI369 的正确率有一定的提高,而 RPI367 的正确率反而降低了。 当特征个数增加到 1 000 时,正确率没有太大的变化。 而在目前仅仅基于序列预测蛋白质 - RNA 相互作用的工作[3]中,对RPI369 数据集使用两种分类方法( RF 和 SVM)实施 10 折交叉验证,正确率分别为 76. 2% 和72. 8% . 在以前的研究工作中,基于 Na?ve Bayes-ian 的分类方法对 RPI367 和 RPI369 进行 10 折交叉验证,正确率仅仅达到 77. 6% 和 75. 0%. 通过比较,可以看出本文的计算结果更好一些。
氨基酸三联体和核苷酸的相互作用倾向性被用于预测 RNA 结合位点得到了很好的预测结果,于是我们试图把它运用到蛋白质 - RNA 相互作用的预测中。 考虑到每对蛋白质 - RNA 序列中三联体 - 核苷酸的倾向性的差别,重新定义了一个权重倾向性度量,然后利用此度量计算每类三联体 - 核苷酸的倾向性。 计算结果证实了本文所选特征的有效性,同时也说明了三联体 - 核苷酸的相互作用倾向性在蛋白质 - RNA 相互作用预测中起着不可忽视的重要作用。
参考文献:
[1]PANCALDI V,BAHLER J. In silico characterizationand prediction of global protein RNA interactions inyeast[J]. Nucleic Acids Res. ,2011,39: 5826-5836.
[2]BELLUCCI M,AGOSTINI F,MASIN M,et al. Predic-ting protein associations with long noncoding RNAs[J].Nat. Methods,2011(8):444-445.
[3]MUPPIRALA U K,HONAVAR V G,DOBBS D. Predic-ting RNA-protein interactions using only sequence infor-mation[J]. BMC Bioinformatics,2011,12: 489.
[4]WANG Y,CHEN X W,LIU Z P,et al. De novo predic-tion of RNA-protein interactions from sequence informa-tion[J]. Mol. BioSyst. ,2013(9): 133-142.
[5]SHEN J,ZHANG J,LUO X,et al. Predicting protein-protein interactions based only on sequences information[J]. Proc. Natl. Acad. Sci. U. S. A.,2007,104:4337-4341.
[6]CHOI S,HAN K. Prediction of RNA-binding aminoacids from protein and RNA sequences. BMC Bioinfor-matics[J]. 2011,12(Suppl 13):7.
[7]LEWIS BA,WALIA R R,TERRIBILINI M,et al.PRIDB:a Protein-RNA Interface Database[J]. NucleicAcids Res. ,2011,39: 80-82.
[8]BERMAN H M,WESTBROOK J,FENG Z,et al. TheProtein Data Bank[J]. Nucleic Acids Res.,2000,28:235-242.