A Fondo
Canya, una IA desarrollada en España que descifra el lenguaje de la agregación de proteínas

Un grupo de investigadores ha desarrollado en España, en concreto en el Instituto de Bioingeniería de Cataluña (IBEC) en colaboración con el laboratorio del centro de Regulación Genóminca (CRG), una herramienta de IA capaz de descifrar el lenguaje «secreto» que utilizan las proteínas para decidir si forman o no agregados pegajosos. La presencia de estos está relacionada con el alzheimer y otros cincuenta tipos de enfermedades de los humanos. Esta nueva herramienta, a la que han llamado Canya, está diseñada para poder explicar sus decisiones, revelando los patrones químicos concretos que impulsan o previenen la agregación dañina de las proteínas.
El descubrimiento, en el que también han colaborado el Laboratorio Cold Spring Harbor (CSHL) y el Instituto Welcome Sanger, ya se ha publicado en la revista Science Advances. Ha sido posible realizarlo gracias a la disponibilidad del mayor conjunto de datos creado hasta ahora sobre agregación de proteínas. Este fenómeno, la aglomeración de proteínas, o agregación amiloide, altera la función normal de las células, lo que supone un peligro para la salud. Si ciertas partes de las proteínas se pegan entre sí, estas se convierten en masas densas con consecuencias patológicas.
Como era de esperar, el estudio tiene ciertas implicaciones en la aceleración de las investigaciones de determinadas enfermedades neurodegenerativas, aunque su impacto más inmediato será en biotecnología. Muchos fármacos son proteínas, y en ciertas ocasiones, las agregaciones no deseadas de las mismas obstaculizan la función de los fármacos.
Las agregaciones proteicas se forman a partir de un lenguaje que no es todavía muy conocido. Su lenguaje tiene veinte letras distintas, en vez de las cuatro letras habituales que componen el lenguaje del ADN. La combinación de esta veintena de letras forman palabras o motivos que marcan, entre otras cosas, si se adhieren o no.
El tamaño del conjunto de los datos, clave para el estudio
Durante mucho tiempo se ha intentado descifrar qué combinaciones de estas letras generan el pegado de las proteínas, y qué otras permite que las proteínas se plieguen sin fallos. Gracias a las herramientas de IA que tratan los aminoácidos como el alfabeto de un idioma secreto se puede ayudar a identificar estas palabras o motivos concretos. Pero hasta ahora la calidad y el volumen de los datos de agregación de proteínas que se necesitan para alimentar los modelos de IA que faciliten el proceso han sido escasos o restringidos a fragmentos muy pequeños de proteínas.
Para superar esta dificultad, el estudio realizado ha realizado diversos experimentos a gran escala. Los autores del mismo, con la Doctora Benedetta Bolognesi a la cabeza, crearon más de 100.000 fragmentos de proteínas completamente aleatorios desde cero. Cada uno de ellos con un largo de 20 aminoácidos.
Asimismo, la capacidad de cada fragmento sintético para agregarse se probó en células de levadura vivas. De esta forma, si un fragmento en concreto desencadena la formación de agregados proteicos, las células de levadura crecerían de manera particular, que se puede medir para determinar la causa de esta formación, así como su efecto.
El estudio reflejó que cerca de uno de cada cinco de los fragmentos utilizados causó aglomeración. El resto no lo hizo, y aunque varios estudios previos han podido seguir el funcionamiento de un grupo de secuencias, el nuevo conjunto de datos ha logrado muchas más variantes de proteínas distintas capaces de producir agregación amiloide.
Entrenamiento de Canya
Con estos datos generados con los experimentos se ha entrenado a Canya, creada a partir de los principios de IA explicable, que lleva a que sus procesos de toma de decisiones sean transparentes y comprensibles para los humanos. Eso sí, esto le hizo perder parte de su poder predictivo, pero a pesar de ellos Canya demostró contar con un 15% más de precisión que los modelos existentes.
Canya es un modelo considerado como «de convolución-atención«. Esto quiere decir que toma sus funciones de dos áreas distintas de la IA. Los modelos de convolución, como los que emplean en reconocimiento de imágenes, escanean fotos para localizar características concretas. De la misma forma, Canya revisa la cadena de proteínas para detectar características significativas, que en este caso no son imágenes, sino palabras o motivos.
El segundo área de la que Canya toma sus funciones es el de las herramientas de traducción de idiomas, que usan los modelos de IA para identificar frases clave en una oración antes de decidir cuál es la mejor traducción. Con la incorporación de esta técnica, Canya es capaz de detectar qué motivos son los más importantes de toda la proteína a escala genera. Esta combinación permiten a Canya ver con detalle los motivos en local, y detectar su importancia a gran escala.
Esta información puede usarse no solo para predecir qué motivos de la cadena de proteínas forman la aglomeración, la bloquean o provocan un estadio intermedio. También para comprender por qué sucede cada tipo de acción.
La herramienta ha demostrado ya que las pequeñas regiones de aminoácidos repelentes al agua son más propensas a provocar aglomeración. Además, algunos motivos tienen más impacto en la aglomeración si están hacia el inicio de una secuencia de proteínas y no hacia el final. Canya localizó varias reglas que dirigen la agregación de prtoteínas. A diferencia de lo que se creía, ha aclarado que los aminoácidos pueden promover la aglomeración.
Tal como está concebida en la actualidad, Canya explica sobre todo la agregación de proteínas bajo un sí o un no, por lo que funciona como un clasificador. De cara al futuro, el equipo que la ha desarrollado quiere ajustar el sistema para que pueda predecir y comparar las velocidades de agregación, en vez de solo la probabilidad de agregación.
De esta forma se podría facilitar la predicción de qué variantes de proteínas forman agregados con más rapidez y qué otros lo hacen con más lentitud, algo muy importante en enfermedades neurodegenerativas.
Imagen apertura: Benedetta Bolognesi
-
NoticiasHace 5 días
La Administración Trump despide a la responsable de la Oficina de Copyright de EEUU
-
A FondoHace 6 días
Visa y Mastercard se adentran en el comercio impulsado por IA agéntica
-
NoticiasHace 5 días
Estados Unidos y China rebajan temporalmente sus aranceles
-
NoticiasHace 3 días
MMD y AOC consolidan su liderazgo en el mercado de monitores con un crecimiento del 13% en 2024