Conecta con nosotros

Noticias

Los fallos del autocorrector en Excel y otras hojas de cálculo: un dolor de cabeza para la genómica

Publicado el

Los fallos que provoca el autocorrector en Excel: un dolor de cabeza para la genómica

Los errores que provoca el autocorrector en los textos que escribimos en el ordenador o en el smartphone la mayoría de usuarios no suele provocar problemas que vayan más allá de un malentendido o alguna frase mal escrita. Pero cuando el autocorrector interviene en entornos profesionales o dedicados a la investigación, sus fallos y correcciones aleatorias de lo escrito porque «cree» que las palabras están mal y las cambia automáticamente por otras puede provocar no pocos problemas y dolores de cabeza. Es lo que les pasa a los investigadores en genómica que utilizan una hoja de cálculo como Excel.

Hace cinco años apareció un estudio en el que se demostraba que los problemas en investigación derivados de los problemas con el autocorrector en hojas de cálculo, como Excel, eran generalizados. Desde entonces hasta ahora poco ha cambiado la situación. Según un análisis de las listas de genes que están aprobadas y publicadas del que se han hecho eco en Nature, las publicaciones académicas todavía están contaminadas por hojas de cálculo llenas de errores.

Este longevo problema ocurre en muchos casos cuando un investigador escribe en una celda de una hoja de cálculo, como Excel o Google Sheets, el nombre de un gen, esto es, su símbolo, y el programa reconoce este nombre como una fecha y lo corrige automáticamente para que aparezca como tal. Por ejemplo, SEPT4 (septin 4) puede cambiarse por 4-sep o Sep-4. Este fallo, que además al estar en listas y tablas que generalmente tienen muchos elementos, puede pasar desapercibido y tener un impacto significativo en una investigación. Sobre todo, si son novatos o investigadores en prácticas los que manejan las hojas de cálculo, porque los más expertos suelen cazar estos fallos con mucha más frecuencia.

Si una hoja de cálculo altera los nombres de los genes, los genes se pierden al importarlos a programas de análisis de redes de genes, lo que puede distorsionar los resultados. El programa que se utiliza para este análisis informa de que se han perdido varios genes, pero no indicará cuáles. Y en casos como estos, en los que es habitual trabajar con listas con varios miles de genes, encontrar los datos perdidos se convierte entonces en muy complicado, o directamente imposible.

Este problema se documentó por primera vez en 2004, cuando un farmacólogo molecular del Instituto nacional de Bethesda (Maryland, Estados Unidos) y sus colegas avisaron de que puede haber cambios en los símbolos de los genes al procesar datos de genómica. Doce años más tarde, en 2016, otro grupo de investigadores del Instituto Baker IDI de corazón y diabetes de Melbourne (Australia), cuantificaron este problema.

Entonces aseguraron que la quinta parte de los estudios de las principales publicaciones de genómica tenían errores de conversión en los nombres de los genes escritos en horas de cálculo de Excel publicadas como datos complementarios. Otros geneticistas acceden con frecuencia a estos conjuntos de datos, así que los errores se pueden perpetuar y distorsionar otros análisis.

A pesar de que hace ya algunos años que el problema llamó la atención de los investigadores, y de que se tomaron medidas para paliarlo, todavía hay dificultades por él. Así lo atestigua otro análisis más extenso publicado por los mismos investigadores que lo cuantificaron en 2016. El equipo que lo ha realizado ha descubierto que casi un tercio de 11.000 artículos con listas de Excel complementarias publicados entre 2014 y 2020 contenían errores en nombres de genes. Para evitarlos hay que hacer comprobaciones sencillas y periódicas, porque si no se hacen, cuando la hoja de cálculo va creciendo, las comprobaciones se vuelven imposibles.

Para tratar de evitar problemas, el Comité de nomenclatura genómica (HGNC), que se encarga de estandarizar los nombres de genes humanos, anunció que había decidido cambiar los símbolos de genes que sufren este problema con más frecuencia, porque los esfuerzos hechos para que la comunidad de investigadores los solucionase no habían tenido éxito. Desde entonces, este comité ha cambiado 27 símbolos de genes, entre los que están SEPT4 (ahora SEPTIN4) y MARCH1 (ahora conocido como MARCHF1). Otras entidades de nombrado de genes también ha seguido estos pasos.

Pero estos cambios no van a tener un impacto a corto plazo en la frecuencia de errores en la documentación de la genómica, porque los conjuntos de datos publicados contienen con frecuencia listas de genes desactualizadas. Por lo tanto, puede que pasen varios años hasta que se solucione el problema. Por eso, el HGNC recomienda que los investigadores accedan únicamente a los datos más recientes de las bases de datos públicas, y que las publicaciones pidan a los autores que así lo hagan antes de publicar.

Otra solución, mas drástica, es evitar el uso de hojas de cálculo, o emplear las que no tienen ese problema, como LibreOffice o Gnumeric, ambas open source, aunque en estos casos es complicado examinarlas si surgen problemas. Algunos biólogos expertos en informática usan scripts de lenguajes de programación, como Python y R, que no corrigen automáticamente los símbolos de genes, y permiten a los investigadores rastrear la fuente de los errores.

Eso sí, este sistema requiere que los usuarios aprendan el lenguaje de programación elegido para que puedan escribir código que les permita analizar datos. Algo para lo que muchos no suelen tener tiempo. Mientras, otros utilizan trucos como añadir apóstrofos antes de nombres de genes afectados por el problema, o preformateando las celdas de las hojas de cálculo antes de importar los datos. Porque el problema de la autocorrección, al menos en Excel, no parece que vaya a solucionarse pronto.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído