Conecta con nosotros

Noticias

Meta anuncia Seamless4T, un modelo de IA que traduce voz y texto en un centenar de idiomas

Publicado el

Meta anuncia Seamless4T, un modelo de IA que traduce voz y texto en un centenar de idiomas

Meta ha anunciado el lanzamiento de SeamlessM4T, un modelo de IA multimodal que se funciona tanto con traducciones de texto como de voz y que tiene como intención convertirse en un avance hacia al creación de un traductor universal. Se trata, según la compañía, de una red neuronal que puede procesar tanto textos como sonido, y que es capaz de traducir entre hasta un centenar de idiomas. También de hacerlo de texto a voz, de voz a texto, de voz a voz o de texto a texto. Su objetivo es ayudar a las personas que hablan idiomas diferentes a comunicarse entre si de manera más efectiva.

La compañía ha lanzado el modelo con licencia de investigación, lo que permite a los desarrolladores utilizarla como base para sus trabajos y desarrollos. Entre sus funciones, el modelo puede realizar tareas de reconocimiento de voz, y si le proporcionas audio de frases y textos hablados, lo puede pasar a texto. Además, es capaz de reconocer automáticamente los idiomas que se le suministran en texto o voz para su traducción.

También es capaz de realizar traducciones al mismo tiempo que transcribe audio y lo pasa a texto. Y si le suministras un corte de audio con palabras y frases, puede trasladarlas a otro idioma, en voz. Por descontado, es capaz de hacer traducciones de texto a texto, de manera muy similar a como lo hace Google Translate. Eso sí, las funciones de traducción en texto soportan, como hemos mencionado, alrededor de 100 idiomas. Pero en las traducciones de voz, su número de idiomas compatibles se reduce hasta los 35 (inglés incluido).

Además del modelo, Meta ha confirmado que va a lanzar los metadatos del proyecto en un conjunto de datos, al que ha llamado SeamlessAlign. Según sus responsables, se trata del mayor conjunto de datos multimodal open source lanzado hasta la fecha. Contiene 270.000 horas de discurso hablado y de ajustes de texto, que son los que se han utilizado para entrenar el modelo.

Su disponibilidad hace que en el futuro, el entrenamiento de modelos de Inteligencia Artificial destinados a la traducción resultará más sencillo y ágil para los investigadores. Para más información sobre SeamlessM4T conviene visitar la página de GitHub de Meta dedicada a la investigación en este área.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído