分子生物学的中心法则有力地解释了信息从 DNA 到 RNA 和 RNA 到功能性蛋白质的单向流动。
还有什么信息比实验结构更具影响力和功能相关性?
无论您研究什么,无论您的检测目标位于中心法则中的何处,以及您的原生宿主在生命树上的何处,都涉及到功能性蛋白质。
您可以为您的实验分离 RNA,而很少进行蛋白质结构分析。或者,您可以将蛋白质作为组学项目的一部分进行常规分析。
无论哪种方式,对于形成假设或告知您的实验设计可能至关重要的信息,目前可能会被忽略。
怎么会这样?
当我们在分子图形程序中打开一个 PDB 文件(一个编码大分子实验结构的文件)时,很多信息根本没有显示出来!
因此,让我帮助您充分利用您手中的数据。在我们学习如何阅读 PDB 文件和挖掘有用数据的过程中,请与我同在。
什么是蛋白质数据库文件?
蛋白质结构是信息丰富的实体。
我们使用它们来理解和利用大多数生命过程。直接想到的例子是抗菌素耐药性、疾病的发作及其治疗。
蛋白质的结构数据通常通过 X 射线晶体学、低温电子显微镜或 NMR 在适当的样品上获得。
处理完数据后,我们得到一个包含结构中所有原子位置的文件。
这称为 PDB 文件,代表蛋白质数据库。
PDB 文件只是一个文本文件
你有没有想过为什么蛋白质结构的信息如此丰富,而 PDB 文件却如此之小?那是因为它们只是 ASCII 文件,其中包含(大量)所有组成原子的坐标数据。
因此,它们可以在记事本等文本编辑器中打开。
在深入研究可用的额外结构信息并将其置于生物学环境中之前,让我们花点时间熟悉一下 PDB 文件的基础知识。
我们将查看来自大肠杆菌的定殖因子计时器主要亚基 CfaB 的 PDB 文件(PDB ID:4y2n)。[1]
点击链接,注意页面右上角的蓝色按钮,上面写着“下载文件”。单击它,然后选择“PDB 格式”。
导航到文件“4y2n.pdb”的下载位置。右键单击它,将光标放在“打开方式”上,然后选择“记事本”。
PDB 文件中有什么?
好吧,您可以立即获得大量元数据(有关数据的数据)。
回到我们的示例,您应该打开一个包含大量信息的文件。但别担心;我们将保持简单。
这里需要注意两点:
最左侧的大写单词是标题或“卡片”,表示该行上的信息属于什么。(例如,标题、标题、来源。)
任何 PDB 文件中的第一块数据都包含实验性元数据,其中描述了如何解决相应的结构等。
关于第 1 点,卡片是导航 PDB 文件的最佳方式。
关于第 2 点,这里通常有大量方便的信息。使用我们的示例,我们可以立即确定宿主分类 ID、菌株 ID 和基因 ID(都在 SOURCE 卡下)。
并且使用 COMPND 卡,我们可以收集到该结构对应于定殖因子 I 的残基 25-170。
如果您很难查看这些信息的位置,请查看图 1 以了解正确的方向。
图 1。用于条目的 PDB 文件的注释屏幕截图:4y2n。(图片来源:托马斯·沃里克。)
因此,我们无需翻阅论文或其支持信息即可获得所有这些有用的信息。手动检查 PDB 文件可以节省您的时间并帮助您进行蛋白质结构分析。
但是,还有更多信息,并且通读它超出了本文的范围。不过,仔细看看,看看你能挑出什么。
另请注意,并非所有 PDB 文件都包含相同类型的元数据。有些人的富裕程度要低得多。这是因为存款年龄,用于解决结构的软件以及存款人的勤奋。
一目了然地获取有用的结构数据
元数据很有用,但本文的主要目标是描述一些可用的额外结构数据,以帮助您进行蛋白质结构分析。
因此,让我们继续讨论 PDB 文件的更相关区域,并进一步扩展我们的理解。
向下滚动到 ATOM 卡开始的位置(参见图 2)。
图 2。带有编号列的 ATOM 卡的屏幕截图:4y2n。(图片来源:托马斯·沃里克。)
ATOM卡中的数据是什么意思?
这是一个很好的问题,答案对于理解接下来的例子是必要的。它还为您提供了一些必要的工具来判断结构的质量。
在给出这些数据如何在生物学背景下表现的一些说明性示例之前,我将简要解释它们。
ATOM卡的故障
让我们一一翻阅,然后继续有趣的事情。副标题编号与每个数据列上方的红色编号相关,图 2。
1. 卡片
正如已经解释过的,这些卡片发出了它们后面的信息。它们有特定的定义,因为读取 PDB 文件以显示和询问蛋白质结构的程序必须对所有信息进行分类。
因此,这些卡使软件包能够“知道”,例如,这个亮氨酸属于 A 链,这个原子属于一个配体,这两个原子之间不应该有共价键,等等。
如果您仍然不确定,.ris 引文文件以类似的方式使用标签,以使 Mendeley 等软件能够生成格式化的参考文献。
2. 原子数
除了为结构中的每个原子分配一个唯一编号外,没有什么好说的。这就是这个数字所对应的。
请记住,每种蛋白质都由一串氨基酸组成,而氨基酸链又由原子组成。还有一些原子属于溶剂和配体,它们也可能存在于蛋白质结构中。所有这些都需要一个唯一的数字来识别它们。
3. 原子类型
这些字母表示给定残基中的原子类型。例如,“CA”是α碳,“CB”是β碳,“O”是肽羰基氧,等等。
如果您需要快速复习:
α碳是与侧链结合的碳;
β碳是侧链的第一个原子;
依此类推,随着离 alpha carbon 越来越远,在希腊字母表上。
我们很少考虑“delta”或“epsilon”碳,但它们存在于更大的残基中。
4. 三字母氨基酸代码
我们可能都熟悉的东西——氨基酸密码。如果您像我一样总是忘记谷氨酰胺和谷氨酸之间的区别,这里有一张代码表。
5.链ID
IgG 抗体包含四个通过二硫键连接在一起的离散多肽链。
类似地,其他蛋白质可能作为二聚体或更大的寡聚体发挥作用,它们也由两条或更多条离散的多肽链组成(图 3)。
图 3。多链蛋白质的两个例子。(左)人 IgG B12(PDB:1hzh)包含 4 条独特的链。[2](右)来自嗜热脂肪地芽孢杆菌的 Trp RNA 结合衰减蛋白 (TRAP) 的十一聚体形式(PDB ID:1c9s)包含 11 条具有相同氨基酸序列的链。[3](图片来源:Thomas Warwick。)
而在 X 射线晶体学中,蛋白质分子可以不对称地聚集在一起,然后这个不对称单元可以对称地堆积在一起形成晶体。
关键是我们需要一种描述多肽链的方法,这就是这个标签。
6. 残留编号
这里也没什么特别的,只是给定多肽链中从 N 端到 C 端的氨基酸数量。
这里要记住几点:
一些结构生物学家认为,残基编号为“1”的氨基酸始终是蛋白质序列中的第一个氨基酸。有道理,对吧?是的,确实如此,但是:
结构中包含的任何 N 端亲和标签都采用负残基数(这很好)。
对应于不完整蛋白质的结构可能具有与其在完整蛋白质序列中的数字位置不同的残基编号。
对于我们的示例 CfaB,这两种情况都是正确的。注意链 B 中的前两个 His 残基如何取数字 -1 和 0。因此,仅构建了 (His) 6亲和标签中的最后两个残基。
请注意,尽管结构对应于 CfaB 残基 25-170,但残基编号为 1-147。这是因为解出的结构对应于不完整的蛋白质序列。
在野外查看 PDB 文件时,您必须对自己有所了解。
7. 原子坐标
PDB 文件在 2 维屏幕上显示 3 维结构。因此,所有原子都有一组坐标 XYZ,用于描述它们相对于单个原点 000 的位置。
8. 原子占有率
这个数字表示原子存在于结构内单个位置的时间百分比。
大多数时候,这个数字是 1.0 (100%),因为原子通常只占据一个位置。很简单。
然而,有时同一个原子可能表现出两个或多个离散位置。只是不是同时。
嗯?
想象一下你的手掌代表酪氨酸残基上的芳香环。假设 80% 的时间你的手指指向上方,20% 的时间你的手指指向侧面。
酪氨酸在挥动。
在这种情况下,属于每个构象的原子的占有率将是 0.8 和 0.2。
想象一下你的手腕是阿尔法碳。当你挥手时它不会移动,所以它的占用率为 1.0。
结构科学家称这种现象为“无序”,它可能出现在大分子或化学物质的实验结构中的原因有很多,包括:
稳定不同构象的氢键的竞争来源;
在结晶过程中采用离散但能量相似的构象;
电子显微镜网格制备同上;
不具有先天结构的分子区域(例如,环);
在极少数情况下,原子在数据收集过程中会在构象之间移动。
在这种情况下,如果实验数据允许,最好将这部分结构构建两次(或多次),每次都代表实验数据建议的合理构象。
这些部分的占有率总和为 1.0,因为分子不能神奇地复制一个区域——这只是结构生物学家为提供一种最能解释实验数据的结构而做的事情。
最后要注意的三点:
上面列表中的场景 1 直接导致场景 2 和 3。
配体也可以表现出紊乱。在优化药物发现的先导化合物以利用(例如)对特定生物体的选择性时,这可能是一个关键的考虑因素。
上面列表中的情景 5 非常罕见,因为结构数据通常是在低温下收集的。
9. 原子位移参数
他们可能看起来,但蛋白质结构不是静态的,所有的原子都会有点摇晃。有些原子摇晃得很厉害。
结构科学家的目标是构建一个尽可能准确地描述实验数据的结构。即,考虑到这种抖动的结构。
因此,需要一些参数来描述这种抖动?——一个抖动因素。
幸运的是,有这样一个东西,它正式被称为“B因素”。[4]
也称为“原子位移参数”和“热位移参数”。
它描述了原子从平衡位置的位移,并假设该位移是球形的。1
这意味着假定位移的大小在所有方向上都相同。因此它的另一个名称是“各向同性位移参数”。
有一个简单的方程来描述 B 因子:
如果一组原子的 B 因子足够大,则可能表明该区域表现出无序,这已经描述过。
我听到你问什么算“足够大”?
嗯,没有简单的答案,因为结构科学很复杂。
为简单起见,我们假设结构分辨率范围为 1.5-3.5 Å的B 因子为 25-80 Å 2是“好”的。[5]
当 B 因子超过 ~ 78.96 Å 2 (8\piπ2 ),相应的 U 值开始超过 1.0 Å,大致接近典型共价键的长度。
因此,有理由说相应的原子是无序的。
当然,一个原子可能摇晃不到 1.0 埃,但在离散构象之间仍然是无序的。然而,大多数蛋白质结构数据集的质量根本不足以建立相应的构象。最终,这是由建造结构的人做出的判断。
你跟我?
10.元素
这些字母仅对应于所讨论的原子元素,没有任何额外的排名。
那么,让我们借助一些插图示例为所有这些信息提供一些生物学背景。
与占用有关的障碍的例证
让我们来看看来自寄生虫Leishmania mexicana ( PDB ID: 6p4e ) 的半胱氨酸蛋白酶 LmCPB。[6] 这种蛋白质对于寄生虫建立利什曼病的皮肤形式至关重要,利什曼病是一种被忽视的热带疾病。
该结构包含与共价抑制剂复合的 LmCPB,该共价抑制剂表现出两种离散的结合模式(图 4)。
结构科学家称其为“两部分紊乱”。
图 4。(上)与 LmCPB 结合的共价配体“GES”的两个离散结合构象。(下)LmCPB 的 PDB 文件中属于两种 GES 构象的原子。每个部分原子的唯一标签以蓝色突出显示,它们的占用值以红色突出显示。(图片来源:托马斯·沃里克。)
我们可以从PDB文件中看到,每个构象中抑制剂的原子占有率分别为0.42和0.58(42%和58%)。
这告诉我们,尽管每种构象都由不同的氢键稳定,但两种构象都同样有利。
如果入住率差异很大,则表明更高的入住率构象更稳定。因此,如果我们要优化这个配体,我们可能想要夸大有助于形成这种构象的特征。
或者,稳定给定构象的残基可能存在于我们不想抑制的同源物上。在这种情况下,我们可以使用结构数据来修改配体以消除所述构象。
与蛋白质功能相关的 B 因子示例
现在让我们来看看人类醛糖还原酶 ( PDB ID: 1xgd )。[7] 它以 NADPH 依赖性方式催化葡萄糖的还原。
我们已经了解了 B 因子,但知道蛋白质结构可以用图形表示为“B 因子腻子”也很有用。
与卡通表示类似,蛋白质分子表示为带状(图 5)。但是,具有高 B 因子的区域显示为脂肪和红色。具有低 B 因子的区域是窄的和蓝色的。中间 B 因子是黄色/绿色。
PyMOL™和 UCSF Chimera都可以通过这种方式呈现蛋白质分子。
图 5。(左上方)。人类醛糖还原酶的卡通表示。(右上)AB 因子腻子表示。(下)对应 PDB 文件中属于循环 1 和 2 的原子。(图片来源:托马斯·沃里克。)
我们可以看到,一般来说,这种结构的B因子较低,这意味着它是好的和有序的,并且块状晶体中的蛋白质分子的所有拷贝都占据几乎相同的构象。
不过,也有一些不稳定的区域。其中两个我已经圈出并称为“循环 1”和“循环 2”。
如果我们做一些研究,很明显这些环中的残基在功能上很重要。[8]
特别是,动力学数据表明环 2 经历了构象重排以结合 NADPH 并释放 NADP +。[9,10]
此外,环 1 中的残基也移动形成与 NADP +的接触。
因此,在这个例子中,原子 B 因子显然与蛋白质功能有关。
事实上,我们可以从占用率值看出,循环 1 中的每个原子都被构建了两次,占用率值为 0.5。2
因此,循环已经构建了两次,沿着两个不同的方向(两个构象)进行,每组“半原子”都属于其中一个构象。
与在占用率为 1.0 的情况下建造一次循环相比,建造两次会导致更低的 B 因子。
此示例中还有一些其他属性需要注意。
我们可以看到,蛋白质核心的B因子相对较低。关于为什么会这样的任何想法?
你猜到了。因为核心被掩埋,所以它不会摇晃。它由自身和分子其他区域的氢键网络固定。
相反,虽然完全令人满意,但我们可以看到分子边缘的 B 因子略高于核心。这是因为这些区域由较少的氢键固定,并且更灵活。
请注意,一个地区的 B 因子高并不意味着它在功能上很重要。但是,B 因素可能会为您指明正确的方向。
同样,低 B 因子可能表明功能相关。
关键是 B 因素是在提出假设或得出结论时需要考虑的额外数据和额外的证据。
你我的蛋白质结构分析
所以,我们有了它:PDB 文件的基本语法分解,它们包含的一些有用元数据的一瞥,以及更仔细地查看一些结构数据。
希望这篇文章能在您下次进行蛋白质结构分析或以其他方式询问大分子时帮助您。
你有什么问题吗?需要任何主题扩展?简直一头雾水?在下面的评论部分让我知道!
脚注
1由于 X 射线衍射和低温电子显微镜结构解的特殊性,B 因子并不是由分子中原子的运动唯一决定的。实验数据的质量也会对其产生影响。
2结构科学家可以公开设置原子的占用率,或者您可以让占用率自由变化以确定与实验数据最匹配的值。