资讯详情

Science | 化学合成自动智能化--ChemPU中化学合成文献数据库的数字化和验证

大多数现代有机化学实验都需要提前使用文献中的程序来制备反应物。自动化最常见的程序可以为研究界节省大量时间,优化众包。Rohrbach等待人们将100多个流行协议翻译成可以在合成机器上执行的格式,然后对其中一半进行实验验证。作者还建立了一个开放的数据库,可以添加新的可执行协议。

——JSY

918642a0d504439304fee0573bcbc6c2.png

合成化学巨大,但合成化学的自动化在过去几十年中取得了渐进的进步。研究人员提供了一个包含 100 化学反应数据库代表了当代有机合成中发现的反应范围。这些反应包括过渡金属催化的偶联反应、杂环形成、官能团相互转化和多组分反应。化学反应代码或 χDLs 用于版本控制、验证、和数据挖掘已存储在数据库中。在这些合成中,这些合成 50 多个项目和七个模块化 ChemPU 自动运行,其产量和纯度与专业化学家相当。

要复制已知的化学反应,必须从文献或数据库中获得协议,以便在实验室中手动操作。但并非所有的文献或数据库条目都能轻易复制。这不仅是合成新分子的障碍,也是为机器学习积累高质量数据的障碍。更严重的是,没有公开的程序编码标准,没有广泛的报告和纠正失败实验的方法。自动化系统可以清晰地捕获和编码化学合成协议,并具有类似软件的版本控制能力和记录失败的实验将改变该领域。目前,有机合成需要密集、高度熟练的劳动力,典型的合成可能需要多个复杂的单元操作,难以明确编码。这是因为所需的隐性知识往往取决于上下文,导致发表的文献模糊,限制了可重复性、自动化或数据挖掘。这些限制在寡肽、寡糖和寡核苷酸化学等特定领域得到了克服,近年来在化学反应自动化方面取得了很大进展。然而,大多数自动化合成化学平台仍然是针对特定任务或代表手工工作过程中的自动化岛屿,但即使这些平台有定制的指令集,它们之间或文献之间也没有简单的语义联系。为了充分挖掘化学合成中自动化的潜力,保证程序的可重复性,需要在两个方面取得进展。首先,实施所有单元操作需要一个真正通用的自动化平台;其次,一种标准化、准确的语法来描述这些化学过程对于可靠地捕捉特定化学过程的所有关键细节至关重要。该代码还必须独立于自动化中使用的硬件类型,以便在任何兼容的硬件系统中完美地工作。

研究人员开发了工作流程的设计、构建和验证,允许将化学合成文献从手工操作捕获到完全描述的通用化学描述语言(χDL),并在化学处理单元或ChemPU中自动运行。在ChemPU上运行χDL过程称为chemputation(类似于计算)是将代码和试剂可靠地转换为产品。不仅展示了研究人员χDL可以编译到许多不同的地方ChemPU运行在配置上,并显示χDL这些合成程序是有机化学工具箱的代表。一般来说,103种不同的化学反应已经从文献转变为可靠的χDL硬件上验证了代码,其中53个程序的产率和纯度与文献中的相当。早期版本提高了这种合成产量ChemPU它是不可能的,因为它不能使用χDL。这也标志着和χDL与原始论文相比,经验证的原始论文χDL大大提高了程序的数量,也证明了本文所用硬件的可靠性。研究人员设计并建立了103个项目Chemify的χDL预计数据库将迅速扩展;任何人都可以在适当的硬件上运行和验证数据库。这些χDL条目不仅可以在其他自动合成平台上实现,还可以根据需要生成材料,收集统计数据,必要时提出新版本。除了直接重复验证过的程序外,每个χDL通过改变底物和调整反应的关键参数,如温度或时间,可以逐渐扩大底物的范围。因为我们根据流行程度选择反应,所以验证了一套χDL它涵盖了大量的常见反应,构成了整个有机合成工具箱自动化的入口。此外,通过执行53个高度多样化的化学程序,ChemPU硬件和软件被推向极限,并显示了通向完全通用的道路。为此,在硬件库中增加了支持χDL闪蒸柱色谱系统取得了关键进展。这意味着ChemPU它不仅可以反应、加工和浓缩,还可以分离产品的色谱,并根据要求直接提供纯化化合物。为了实现这一目标,研究人员表示,该平台可以动态响应产品检测,并收集适当的蒸馏。

图1显示了从文献程序到研究人员的图1Chemify验证条目在数据库中的工作流程。与早期的χDL与工作相比,研究人员的重点不是准确地将原始程序文本翻译成χDL,提供目标分子的化学过程是实现的。遵循这种方法不仅可以重现文献,还可以在某些情况下改进过程。化学反应化学反应χDL它将合成步骤表现为物理过程的序列,如添加、溶解、蒸发等。χDL目前框架内有44个步骤,每个步骤都有一套完全可定制的参数。所有有机合成中常用的任务都有模板式χDL步骤表示,如EvacuateAndRefill建立惰性气氛,Separate用于液-液分离和提取。χDL步骤有助于准确描述过程,消除任何模糊的地方,如排空和惰性气体再填充的周期数或过程的关键添加速度。为了实现这一目标,研究人员使用基于网络的化学开发环境(ChemIDE),提供文本到χDL有助于快速生成翻译工具χDL程序。它使用一个包含所有可用性的χDL步骤模板库和编辑器工作,每个χDL步骤表示为图形元素,可根据需要进行编辑和安排。ChemIDE所有用于生成本工作的细节χDL程序。

用χDL表达一个化学过程并不能立即解决原始文献描述中信息缺失或模糊的问题,但它确实为关闭它提供了一个明确的方法。要做到这一点,可能还需要一些工艺开发和迭代来最大化产量和纯度。在对来自ChemPU执行χDL适当分析代码的目标化合物[NMR、LC-MS或GS-MS之后,评估产品的质量和纯度。必要时,是的χDL改进,提高产量和纯度,然后再实施。χDL主要优点是,一旦一个成功的过程被编码,所有后来的用户都可以在没有工艺开发的情况下在兼容硬件上执行代码。在合格的硬件上执行流程所需的所有关键知识,包括有形的和无形的,现在都在χDL中了。在这个阶段,该协议可以作为验证过程添加到数据库中,并得到目标产品的所有特征和过程开发历史的支持。包括工艺发展的历史Chemify数据库的一个突出特点;通过显示不成功的实验结果,并与最终的成功运行进行比较,突出了过程的关键方面,并可以量化。

Chemify数据库持久保存χDL程序、实验结果及相关分析信息。是本地托管PostgreSQL数据库服务器包括上述所有验证的服务器χDL脚本,可以通过ChemIDE(基于网络χDL基于开发环境的)或使用Python 3的API访问自动数据库查询。另外,为了满足终端用户的体验,ChemIDE产品规模、产率、状态(翻译、验证、失败)、过程持续时间等显示每个实验的特征参数。用户可以提交、搜索、下载和复制可信的合成。该数据库包括最终验证的合成脚本和以前的开发版本,可能在不同程度上发挥作用,提供的产品产量低,纯度不足,或由于自动化必要的工艺参数描述不足或不正确。将失败或低产量的实验与特定反应或反应类别的成功尝试进行比较,可以揭示过程的关键方面。此外,数据库还包括已翻译但尚未在适当的自动化平台上执行的数据库χDL条目。对未验证的χDL对文件感兴趣的用户可以访问这些文件并选择验证它们。这里报告的χDL程序已经在ChemPU上验证,ChemPU是模拟台式化学家手工操作的化学自动化平台。虽然操作简单直观,但严格执行意味着平台作为有限状态机运行(图2)。它可以处于有限数量的状态之一,并根据明确定义的操作从一个状态过渡到另一个状态。这些操作由程序--χDL合成协议-传感器反馈[如温度、电导率、压力或紫外线(UV)定义吸收率。χDL合成指令和状态转换 "单元操作 "直接映射,突出χDL严格抽象的合成过程。此外,χDL对状态转换的明确定义是为了确保χDL合成的可重复性非常重要,包括ChemPU不同的布局和可能完全不同的合格硬件设置。

ChemPU状态机由物理输入或输出三个逻辑部分组成:(I/O)、数字I/O和处理单元。可以根据处理单元ChemPU初始条件或物理和数字I/O由传感器定义的当前条件、过程变量和正在执行的组合χDL步骤,在几种状态下转换。根据调度器,χDL步骤的执行会产生新的状态,在以后的步骤中采取行动,导致物理I/O物理变化,如试剂位置、温度、液-液分离的边界,或色谱过程中的洗脱峰。调度器帮助解释硬件的图形表示χDL协调硬件的协同任务。抽象层定义了硬件设备作为节点的位置和连接,并包含每个节点的具体信息,如相关设备IP地址和温度限制。图文件连同χDL该文件可编译成针对平台的执行文件。严格分离化学过程的描述χDL将硬件平台的描述严格分离到图形文件中,可以保证χDL文件保持与平台无关。这也使得平台的设计方法和具体的物理布局灵活。这意味着每一个χDL版本化和编译可以在任何合适的平台上运行,ChemPU该系统具有高度的模块化、灵活性和可扩展性(图3)。

通过反映批量合成化学的单元操作,ChemPU实施前显示的合成化学,代表了一个通用的、可编程的硬件平台。由于该平台的模块化性质,它可以随时扩展,每个模块通过液体处理干网连接,类似于传统计算机的总线。与液体处理性管连接到液体处理干网(由泵和阀门组成),使模块易于拆卸、维护或重新安排以优化操作。液体处理主体由一系列注射泵和阀门组成。典型的主干系统由六个组成;但是,主干系统可以随时收缩或扩展,以满足所需化学工艺的要求。阀门有六个位置,每个有七个端口。液体处理干网中的每个阀门都连接到一个泵、最近的相邻阀和一个废物容器,并可以连接到三到四个不同的试剂、溶剂或硬件模块。以抽象的方式表示各模块与主干网的连接。主干网的清洗是通过自动清洗程序进行的,可以由用户定义,以说明不同程序后存在的不同类型的污染。除液体处理主干外,还用于本报告的合成ChemPU系统还包括一个反应模块,由以太网-串行转换器控制的标准热板体液体提取分离器、一个顶部搅拌器和一个相界检测的电导率传感器的反应模块;它还包括一个夹套过滤器、一些试剂瓶和一个旋转蒸发器,还有一个可选的色谱系统。

通过chemputation的抽象,χDL语言和ChemPU平台,研究人员着手翻译有机化学工具箱中的典型反应并使之自动化。有机化学包含了种类繁多的转化过程。尽管种类繁多,但大多数反应都可以用少于10个类别进行简明的分类。一些研究已经分析了不同领域的反应频率,如药物化学、工艺化学和全合成。在合成中使用的反应类别的分布有一些明显的差异,这取决于主要目标;例如,药物化学研究人员可能更喜欢过渡金属催化的C-C键形成反应,这可以方便地产生大量的相关化合物用于生物检测,而现代全合成更依赖于精心设计的成环反应,以尽可能少的步骤组装复杂的分子骨架。

此外,尽管保护基化学是某些合成领域的基石,如多肽合成或碳水化合物化学,但从事全合成的研究人员往往喜欢更优雅的无保护基方法。尽管有微小的差异,这些类别体现了现代有机化学的各种工具箱。为了用所有类型的反应的例子来表示这些类别,研究人员选择了翻译这些程序的χDLs,并用ChemPU进行验证(图4)。碳-碳键形成反应类别被进一步分为过渡金属催化反应和无过渡金属反应。此外,还引入了一个单独的多组分反应类别,因为这些反应通常在一次合成操作中完成多种化学转化。最初的反应是从《有机合成》杂志中被引用最多的论文中选出的。这本杂志在有机化学领域很有名,因为它发表了一些实用的方法,用于合成著名的化合物或执行重要的合成方法,而且提交的程序至少被独立于提交原始合成方法的化学专家重复过一次。尽管该杂志的程序一般都有很高的详细程度,但仍需要进行一些程序开发,这突出说明了用非结构化的散文格式捕捉所有必要信息的难度,而不是χDL。从《有机合成》中选择这些高引用率的论文涵盖了最主要的反应类别,但分布不均。因此,研究人员从著名的文献来源中手动选择了更多的例子,以使数据集对有机化学工具箱有更均衡的表述。

该系统对湿气敏感或高活性的试剂具有耐受性,如铜介导的氨基甲酸酯的炔化反应中使用的双酰胺钾(KHMDS),甾体雌酮的Friedel-Crafts烷基化反应中使用的三氟化硼,或Fischer吲哚合成6中使用的Eaton试剂。此外,需要惰性气氛的反应也在该平台上成功执行,包括在钯催化下进行对映选择性卡罗尔重排。ChemPU平台上有效地执行了高达90毫摩尔规模的程序。方便的是,一旦产生了χDL脚本,一个特定的反应可以在可用的容器尺寸和化学过程的限制下放大或缩小。该平台上还成功执行了生成多组分和级联反应产生的更复杂产品的χDL程序。

通过使用ChemPU生成化合物库,可以扩大验证过的χDL程序的底物范围。一个特别有吸引力的前景是利用经过验证的χDL程序来构建用于生物筛选的大型化合物库。这样的化合物库可以很方便地通过改变起始材料来获得,而不需要对合成脚本进行重大修改;也就是说,一旦建立了一个程序,它就可以作为一个一般程序应用于许多不同的底物,只需要改变关键参数,如底物、反应溶剂和反应时间。为了做到这一点,研究人员在ChemPU上同时执行多个或 "多线程 "反应,使用来自两个不同的异氰酸酯和两个醛的反应物组合,得到四个结构相关的α-氨基酰胺产品。进一步扩大所使用的反应物集将迅速扩大生成的产品数量,并允许迅速生成更大的库。

为了检查执行策划的χDL程序的一致性和可靠性,研究人员着手在ChemPU平台上多次重复相同的反应方案。丙二酸酯的烷基化被选为可重复性研究的合适反应,因为准确的温度控制和添加速率是该过程成功的关键。在最初的工艺开发后,获得了经过验证的χDL程序脚本,并在12次尝试运行中成功复制了10次反应协议。两次失败是由于在液-液分离过程中相界测定不正确造成的;产品本可以通过手动重启系统来恢复,但这里没有这样做。最重要的是,经过策划的χDL程序可靠地提供了产品,其产率和纯度都很一致。加上生成化合物库的能力,ChemPU可用于自动生成同一材料的多个批次或在初始协议建立后用不同底物重复同一反应的高度重复性工作。

对反应中的产物化合物进行色谱分离是中小型有机合成的首选纯化方法。许多市售的色谱系统可以帮助实验室的化学家进行色谱分离。然而,这些系统仍然需要大量的用户互动。例如,粗制材料必须手工装入色谱柱,产品馏分必须手工识别,从馏分瓶中洗出,然后合并。此外,这些商业系统需要用户在几个不同的阶段进行互动,从而将化学家与实验室捆绑在一起,即使只是把样品装到柱子上这样的琐碎任务。为了将Buchi Pure C-815色谱系统与ChemPU整合在一起,研究人员建造了两个辅助硬件单元:一个允许在系统上预装不同色谱柱的色谱柱转盘和一个馏分托盘的扩展。后者允许ChemPU回收产品馏分。第一个具有挑战性的自动化操作是将样品加载到柱子上。基于实验室的化学家通常会在干式装载和液体注入样品之间做出选择。研究人员的目标是实施液体注射法,这与ChemPU的液体处理主干很好地结合在一起;此外,液体注射的样品装载方法需要很少的过程开发,只需要确定一个合适的溶剂混合物和体积来溶解粗制材料。正相色谱全自动化的第二个挑战是如何可靠地选择产品峰。通常情况下,化学家需要在色谱分离后通过薄层色谱、质谱或核磁共振分析各个馏分。对于ChemPU集成的模块,我们考虑了几个备选方案。我们发现,考虑洗脱馏分的紫外/可见光反应或弹性光散射检测器的信号,并在指定的信号轨迹下选择具有最大曲线下面积的峰,是可靠性和灵活性的最佳权衡;对于一个给定的性能良好的反应,可以正确识别产物峰,而不考虑确切的保留时间。此外,这种方法不依赖于更复杂的产物鉴定,如质谱或核磁共振。

然后ChemPU控制器进行峰值检测并触发色谱机的馏分收集机制。控制器还跟踪馏分瓶的填充水平和各种运行参数,如背压积聚、溶剂蒸汽水平、梯度溶剂和溶剂废液桶的溶剂水平。如果这些参数中的任何一个超过了规定的阈值,就会启动一个适当的错误处理程序,以可控的方式暂停色谱分离。当分离运行完成后,产品峰被识别并转移到下一个模块。粗制材料通常从旋转蒸发仪转移到色谱模块,然后将纯化的产品从色谱模块转移回旋转蒸发仪,因此旋转蒸发仪烧瓶需要在两者之间进行清洗。因此,已经实现了对纯化产品的目标容器的可选清洗程序,并且可以在色谱分离过程中进行。综合色谱分离法被用于三个反应。这些色谱分离的过程已经被χDL记录下来,以简明易懂的方式说明了每一个细微的关键细节。因此,在另一个ChemPU或同等的系统上,甚至用市面上的色谱机手动复制色谱分离是很容易的。

研究人员已经展示了如何将化学合成文献轻松转换为通用的化学代码,可以在任何能够进行化学合成的机器人上运行;这方面的唯一要求是一个批量反应器、一个分离器、蒸发器和纯化系统。这意味着,潜在的许多不同的机器人方法将能够使用相同的χDL代码,产生相同的结果。χDL Chemify数据库的使用不仅有助于复制已发表的程序,而且还为社区提供了丰富的验证数据,可用于最先进的机器学习,以实现反应优化、合成路线规划、提高安全性和减少合成的环境影响,同时大大减少化学家重复著名程序的劳动。

参考资料

Authors:Simon Rohrbach; Mindaugas Siauciulis; Greig Chisholm; Petrisor-Alin Pirvan; Michael Saleeb; S. Hessam M. Mehr; Ekaterina Trushina; Artem I. Leonov; Graham Keenan; Aamir Khan; Alexander Hammer; Leroy Cronin

DOI:10.1126/science.abo0058

标签: 弹出传感器不可用挖机手动式快速连接器传感器套保护管扩大传感器产量甲酸气体传感器模块08压电式传感器模板

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台