现在,位于加拿大布法罗市 Hauptman-Woodward Medical Research Institute (HWI) 的科学家们已经对 9400 多种蛋白质进行了超过 8600 万次的结晶实验。作为结果,他们获得了超过 8600 万张通过 X 射线结晶学高通量拍摄管道的蛋白质的照片。每张照片都需要进行分析,以确定实验的结果是晶体、沉淀物、相位分离、表面效应还是无变化。
这些研究人员所遇到的难题之一是这些数据集的规模实在太大,存储容量总计超过了 25 TB(相当于 9000 多张 DVD)。IBM 的“蓝色基因”(Blue Gene) 超级计算机为这阶段的工作提供了帮助,它通过一种特殊的图像压缩算法对这些图像进行无损压缩。研究人员还面临另一个挑战,即在一台计算机上全面分析一张图像以确定结晶化结果大约需要 10 个小时。按照这种进度,研究人员几乎需要 10 万年才能分析完现有的这些照片。
World Community Grid 与“征服癌症”项目
借助 World Community Grid 强大的计算能力,Ontario Cancer Institute (OCI)、Princess Margaret Hospital 以及 University Health Network 的科学家们能够对通过 HWI 高通量结晶化管道拍摄的 8600 万幅现有的蛋白质图像进行处理。World Community Grid 运行 OCI 的研究人员开发的 CrystalVision 程序,分析每幅图像的特征,以确定结晶化拍摄的结果:晶体、微晶体、相位分离、表面效应、沉淀物还是无变化。
如果是晶体,检晶仪就对该蛋白质执行最优化过程,以确定该结晶的最优化条件,进而执行衍射实验以确定蛋白质的结构。此外,科学家还可以根据结晶拍摄的结果,将已成功结晶的蛋白质与具有相似特性但结构未知的蛋白质进行对比。这可以作为对这些未知结构的蛋白质进行结晶的出发点,进而能够确定它们的结构。
如果产生的晶体结构不佳或不够大,科学家们仍可利用这些信息来帮助他们更好地确定产生结构良好的晶体所必需的条件。举例来说,他们可能了解到蛋白质 X 在条件 A 下产生了微晶体,而蛋白质 A 在条件 Z 下也产生了微晶体。基于这些信息,他们能够进行其他实验来推断出需要最优化哪些条件才能产生更大、结构更好的晶体。
分析这个实验的结果还能够帮助研究人员更好地理解蛋白质结晶学的基本原理。利用 World Community Grid,全面的结晶学图像分析首次得以完成,而由于其计算的复杂性,这在以前是不可能完成的任务。这个实验又使 CrystalVision 得到改进,从而能够提供更快更准确的图像分类。
蛋白质结晶学管道的改进使研究人员能够更快地确定多种与癌症相关的蛋白质的结构。这将提高我们对这些蛋白质功能的理解,并能帮助我们发现可能的药物介入方法,以便攻克这种致命的疾病。
* 还存在其他一些用于理解蛋白质的结构和功能的方法,包括同样在 World Community Grid 上运行的“人类蛋白质组折叠”项目所采用的方法。基于这项工作的性质,改进所有研究方法对于完善我们对人类机体和疾病的认识非常重要。