环四肽 (Cyclotetrapeptides, CTPs) 因其独特的结构和多样的生物活性,在药物研发中备受关注。然而,在化学合成领域,传统的头尾相连式 (Head-to-tail) 合成方法面临环张力大、产率低等问题,导致合成效率低下。以全 L 型氨基酸构成的环四肽为例,抗病毒分子 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 和抗癌分子 𝘤𝘺𝘤𝘭𝘰-(Pro-Val)₂ 的首尾相连式合成产率仅有 5%和 7%。并且,这类传统合成方式需要筛选大量反应参数以优化反应产率,严重制约了环四肽分子在医药领域的研究与发展。
近日,哈尔滨工业大学 (深圳) 游恒志教授团队通过机器学习辅助的高通量连续流技术,对环四肽 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 合成的偶联条件组合进行系统性筛选,成功实现了环四肽在连续流条件下的高效合成。随后,利用机器学习技术对 𝘤𝘺𝘤𝘭𝘰-(Pro-Val)₂ 的合成条件进行预测,在降低了 90%筛选工作量的同时,还能将环四肽的合成产率提升 5-7 倍。这项研究为环四肽的快速条件筛选提供了创新解决方案 (图 1)。
图1 高通量连续流技术和机器学习辅助的环四肽合成条件筛选。
作者首先探索了不同流动条件下四肽环化反应的产率变化规律。最初在常温下进行反应,使用 DMF 作为溶剂,HATU 作为偶联试剂,DIPEA 作为碱。通过考察温度,停留时间和流速三个因素对产率的影响,最终确定最佳条件为:流速 1 mL/min,停留时间 0.7 min 和反应温度 100°C,此时产率达到 30.1% (表 1)。研究发现温度对反应效率具有显著影响,升温可有效促进反应进程。此外,流速参数呈现双重效应:当流速低于 1 mL/min 时,因反应时间延长和混合效率降低,导致副产物增加和产率下降;而当流速超过 1.0 mL/min 时,由于停留时间不足,反应物未充分转化,转化率和产率均下降。值得注意的是,在相同温度下,釜式反应产率仅为 7.8%,并且需要更长的反应时间。这一对比结果凸显了流动化学在提升反应效率和缩短反应时间方面的技术优势。
表1 连续流条件下的 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 合成。
根据筛选出的连续流最佳反应条件,作者进一步利用自搭建的高通量连续流反应平台开展系统研究。该装置可实现纳摩尔级超微量反应,并且具备在线 HPLC/LC-MS 联用检测系统,为环四肽合成条件的快速优化以及数据收集提供了高效的技术支撑。针对目标产物 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 的反应条件筛选,作者选择了包含 10 种偶联试剂、9 种碱和 3 种溶剂,共计获得 270 条反应数据并以此制作了热图 (图 2)。实验数据分析表明:采用 PyBOP 为偶联剂,NMI 为碱时,溶剂甲醇和 DMF 均能实现最优的环化效率,最高产率都可达到 36%。值得注意的是,虽然大多数反应收率低于 15%,但磷偶联试剂 (PyAOP 和 PyBOP) 表现出较好的效果。该高通量连续流反应平台提供了结构化的高质量反应数据,有利于后续应用于机器学习模型的训练。
图2 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 的高通量连续流条件优化。
作者基于前期构建的高通量反应数据集,进行了机器学习预测模型的研究。该研究采用 ECFP4 分子指纹作为分子描述符,通过 70/30 训练集-测试集分割法训练并对比了 6 种不同的机器学习模型性能。其中随机森林 (RF) 模型表现最好,决定系数 (R²) 为 0.87,均方根误差 (RMSE) 为 3.0 (图 3),其预测精度显著优于其他对比模型。因此将使用随机森林模型用于后续研究。
作者为进一步验证模型的有效性,采用了更严格的数据分割策略。即将 3 种使用了不同的偶联试剂或碱的反应数据作为样本外测试集,剩余数据作为训练集,共生成 6 个样本外预测任务 (表 2)。在这种划分策略下,随机森林模型在 6 个任务上都取得了显著的性能,展示了利用机器学习进行反应预测的潜力。
表2 随机森林模型在六种不同样本外预测任务中的表现。
最终,作者采用了迁移学习的方法,将训练模型应用于环四肽 𝘤𝘺𝘤𝘭𝘰-(Pro-Val)₂ 的环化条件筛选。尽管 𝘤𝘺𝘤𝘭𝘰-(Pro-Val)₂ 和 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 具有相似的烷基侧链,但它们的最佳反应条件并不相同。首先,我们随机选择了 27 个偶联条件进行高通量连续流实验 (占所有可能条件的 10%)。基于这些实验数据对模型进行微调后,将其应用于其他所有偶联条件的产率预测,最终实现了 3.6 的均方根误差 (RMSE)。表 3 对比了实验产率与预测产率,进一步验证了该微调模型预测结果的准确性。特别需要指出的是,改进后的模型成功地预测了最佳反应条件 (PyAOP、NMI 和 DMF),其预测结果与实验产率高度吻合。通过该微调模型的帮助,𝘤𝘺𝘤𝘭𝘰-(Pro-Val)₂ 合成条件的优化工作量被压缩至通常高通量实验的 10%,大大加速了优化过程并降低了筛选成本。
表3 机器学习辅助快速筛选 𝘤𝘺𝘤𝘭𝘰-(Pro-Val)₂ 合成。
本研究将高通量连续流技术与机器学习模型相结合,显著提升了环四肽合成条件优化和筛选效率。借助高通量连续流平台的效率优势,单日内即可完成 200 组四肽环化反应,并成功将 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 的产率由 5%快速优化到 36%。此外,我们还将上述数据应用于机器学习模型的训练,测试结果表明该模型具备精准的条件预测能力。值得一提的是,通过仅使用传统方法 10%的实验数据进行重新优化,该模型即可成功预测 𝘤𝘺𝘤𝘭𝘰-(Pro-Leu)₂ 的最佳合成条件,并将产率从 7%提升至 34%。通过将高通量流动化学与机器学习技术融合使用,本研究在环四肽合成领域展现了独特优势。我们期待,这一成果将激发更多基于数据驱动的化学研究。
Synthesis of challenging cyclic tetrapeptides using machine learning-assisted high-throughput continuous flow technology
Chaoyi Li, Jiaping Yu, Wanchen Li, Jingyuan Liao, Junrong Huang, Jiaying Liu, Wei Zhao, Yinghe Zhang, Yuxiang Zhu and Hengzhi You
Org. Chem. Front., 2025, Advance Article
https://doi.org/10.1039/D4QO02225D