CÓMO AUTOMATIZAR LA SÍNTESIS QUÍMICA

CÓMO AUTOMATIZAR LA SÍNTESIS QUÍMICA

26 agosto, 2020 0 Por Rene Davila

Foto: ROBORXN

Por Teodoro Laino, Distinguished RSM, Manager

Hace tres años cuando empezamos a desarrollar modelos de aprendizaje automático (machine learning) para predecir las reacciones químicas. Después de unos meses de desarrollo interno, lanzamos el servicio de forma gratuita a través de la nube de IBM en agosto de 2018, y lo llamamos RXN for Chemistry.

La magia detrás del desarrollo, es un método de traducción de aprendizaje automático basado en redes neuronales de última generación, que puede predecir el resultado más probable de una reacción química, utilizando arquitecturas de traducción automática neuronal. El método traduce el lenguaje de la química convirtiendo los reactivos en productos, usando la representación SMILES para describir las entidades químicas.

RoboRXN aprende

La construcción de un conjunto de datos de base verificados para los procedimientos químicos, permitió construir el núcleo de la tecnología RoboRXN, un modelo de IA que, entrenado en un gran número de recetas químicas, aprende las especificidades de los productos químicos, para poder recomendar la secuencia correcta de operaciones para «cocinar» una molécula objetivo específico.

Esto equivale a tener una arquitectura de IA a cargo de escribir los programas para hacer moléculas. Nuestro objetivo en la construcción de RoboRXN fue utilizar este modelo de IA para eliminar la tarea humana, de programar el hardware de automatización comercial. Y para hacer el sistema RoboRXN aún más conveniente y fácil de usar, implementamos todo el conjunto de servicios en la nube de IBM, para hacerlo accesible en cualquier lugar donde haya una conexión a Internet.

Revolucionando la química industrial

Un sistema automatizado como RoboRXN pudiera ayudar a los químicos a reducir a la mitad el período de descubrimiento de un nuevo tratamiento para COVID-19 o cualquier otro virus. O si pudiera ayudar a acelerar el desarrollo de un fertilizante que no requiera consumir entre el 1 y el 2% del suministro de energía anual del mundo para su producción. Las posibilidades son infinitas cuando se trata de humanos + máquinas. https://youtu.be/ewE1wh7sTUE

En 2019, comenzamos a colaborar con un grupo de químicos orgánicos sintéticos de la Universidad de Pisa, Italia, para integrar una arquitectura retrosintética en la herramienta RXN. Para explicar esto, piensen en cómo se hace una pizza. La arquitectura retrosintética dice los ingredientes a utilizar para la pizza, y a la vez genera instrucciones de alto nivel para crearla en el orden correcto. Trabajando con el equipo de Pisa, añadimos esta característica a RXN for Chemistry.

La investigación detrás del laboratorio autónomo

Reinventando la forma en que se hace la química. Todo fue una combinación de IA, tecnología de nube y automatización de la química. Esta mezcla condujo a la creación de RoboRXN: algoritmos de aprendizaje automático, que diseñan de forma autónoma (IA) y ejecutan (automatización) la producción de moléculas en un laboratorio accesible a distancia (nube), con la menor intervención humana posible.

Para poder construir un modelo de IA con la capacidad de aprender los pasos correctos de los procedimientos químicos, tuvimos que abordar el desafío: diseñar un algoritmo que extraiga específicamente la información de síntesis para la química orgánica, y la convierta en un formato estructurado y fácil de automatizar. En cuanto al enfoque de todo el marco de RXN, optamos por un esquema puramente basado en datos. Esto significa que una vez que el algoritmo de aprendizaje automático adquiera suficientes ejemplos, será capaz de averiguar por sí mismo a qué palabras prestar atención para extraer los pasos de producción correctos.

Para proporcionar los datos de entrenamiento para el modelo de aprendizaje automático, establecimos un marco de anotaciones que permitió generar ejemplos de frases relacionadas con los procedimientos de síntesis y las operaciones correspondientes. La principal ventaja de este enfoque, es que se basa únicamente en datos.

Para mejorarlo, simplemente se necesitan más ejemplos. A diferencia de otros enfoques, el modelo de aprendizaje profundo, convierte los procedimientos experimentales en su conjunto en un formato estructurado y fácil de automatizar, en lugar de escanear los textos en busca de información relevante. Además, no se basa en la identificación de entidades individuales en frases, ni requiere especificar a qué palabras o grupos de palabras corresponden las acciones de síntesis, lo que hace que el modelo sea más flexible y fiable. El trabajo se presentó en la revista Nature Communications.