25

2021

-

07

DDN成功举办在线研讨会 探讨存储在生物计算中的作用


  近年来,随着生物技术的快速发展,诸如基因测序、冷冻电镜等分析手段已逐步走向成熟,助推了海量生物数据的产生。如何利用高性能计算(HPC)和人工智能(AI)方法从海量生物数据中挖掘有价值的信息和洞见已经成为当前基因表达、新药设计、精准诊断、数字医疗等领域的研发热点。然而,生物数据怎么存、怎么算、怎么长期保存也面临极大的挑战,尤其对于存储来说,随着大数据对存储的需求增长,数据存储仓库不只需要很轻松地扩展,更快速地摄取和交付数据,还需要被优化以加快机器学习和AI应用。同时,存储又容易被人忽视,直到存储成为性能和应用的瓶颈......

  生命科学的发展离不开计算的支撑,计算又离不开存储的支撑。在DDN 中国6月底举办的“存储在生物计算中的作用”在线研讨会上,来自基因组学、冷冻电镜以及AI新药开发领域的专家学者分享了各自领域的研究和应用进展,并根据他们的实践经验就如何选择计算和存储设施给出了很实用的建议。另外,来自 DDN 的技术专家介绍了DDN存储架构的先进性和针对生命科学不同应用场景的解决方案,DDN的销售总监还分享了生命科学领域全球用户的典型应用案例。

  

  DDN 在全球拥有众多生命科学用户, 例如:世界先进的基因组研究机构英国桑格研究院 (Sanger Institute),哈佛大学的脑研究中心(Harvard University Conte Center and Center for Brain Science),美国头部的生物医学研究机构之一斯克利普斯研究所(Scripps Research Institute,TSRI),美国生物医学基因研究所 (National Institute of Biomedical Genomics) , 全球研究和治疗儿童癌症的先锋圣犹大儿童研究医院 (St. Jude Children’s Research Hospital), 利用AI加速新药发现的生物技术公司 Recursion Pharmaceutical, 临床试验实验室服务公司 Q2 Solution, 日本国立遗传研究所 (National Institute of Genetics), 日本东北大学医学超级生物库组织 (Tohoku University Tohoku Medical Megabank Organization) ,还有新发布的专用于医疗和生命科学领域的英国超级计算机Cambridge-1等等。在中国,北京大学和中科院的昆明动物研究所是DDN早期的生命科学用户,他们大约十年前购买的DDN设备目前还运行得很稳定,能为中国的科研事业贡献一份力量让DDN人觉得特别欣慰。

  

  DDN的用户不仅来自生命科学基础研究领域,还有新药发现、采用AI方法在医疗健康领域落地的公司和机构。随着数据量和计算分析量的猛增,其数据处理平台遇到了极大的挑战。DDN提供了一个高性能、高可扩展的统一数据存储解决方案,即EXAScaler商业版并行文件系统与稳固的硬件相结合,在工厂做好集成后,针对应用进行基准测试,确保开箱即用,提供海量数据的持续访问、处理、加工以及共享等功能,帮助客户解决不同应用场景的困境。

  

  从细分领域来看,来自北京大学生命科学学院的高级工程师孔雷博士分析了广泛意义上的基因组学对现在的HPC带来的特有挑战:不仅数据量大,而且需求复杂(有计算密集型,IO密集型、内存密集型,GPU密集型等)。面对不同的应用场景(计算类型不一样),怎么把这些需求整合到一个平台里去,是一个需要考虑的问题。他结合自己的实践经验,对高性能计算平台建设提出了7个关键点,包括计算节点的选择, 计算网络的选择, 并行文件系统的选择, 机箱密度, 计算和存储扩展能力, 对基因组学超算应用场景的优化, 以及集群管理系统。他的建议对基础设施建设和运维具有很实用的指导意义。

  

  孔雷老师对并行文件系统选择的建议

  电子显微分析已经成为生命科学研究微观问题的重要手段和分子新药研发的重要工具。作为一种影像学研究方法,在数据的采集和处理过程中涉及较大规模的层次化数据存储和访问问题,并随着数据的积累和分析方法的演进,数据存储的规模和性能对全系统性能越发重要。上海科技大学生物电镜平台科学主任王权教授结合自身在应用冷冻电子显微学技术从事基础研究以及电子显微设施管理方面的实践经验,分享了冷冻电子显微学分析数据管理过程中的体会,以及相关工作在未来一段时间可能面对的机遇与挑战。

  

  随着高性能计算的不断发展,AI技术目前被广泛应用于早期新药研发的各个方面,涉及靶标发现,蛋白结构预测,蛋白口袋探测与分析,二维或三维分子设计与优化,蛋白与分子对接和打分,成药性预测与过滤等。在大量的应用模型中,AI技术所表现出来的预测能力和生成设计能力在很多性能指标上远超传统技术。北京大学/北京英飞智药科技有限公司的徐优俊博士分享了AI多维度分子表征在早期新药发现中的应用,并从分子表征技术出发分析了AI技术和高性能存储在其中发挥的重要作用。

 

  来自高校、科研机构和企业从事生命科学研究的学者,以及数据中心建设、运维方面的技术专家参加了本次研讨会,通过信息互通,共同探讨生物与计算的跨界融合;结合生物大数据和人工智能方法,拓展生命科学研究、疾病诊断、药物靶点发现等方面的新思路和新方法。