Conecta con nosotros

Noticias

Investigadores de Nvidia emplean deep learning para crear vídeo en slow-motion

Publicado el

Investigadores de Nvidia emplean deep learning para crear vídeo en slow-motion

Un equipo de investigadores de Nvidia ha presentado en la edición de 2018 de la Conferencia de visión por computador y reconocimiento de patrones (CVPR) un nuevo sistema que les ha permitido generar un vídeo en slow-motion utilizando deep learning y grabaciones previas en vídeo, lo que pone de manifiesto una vez más la apuesta de Nvidia por la Inteligencia Artificial.

En el estudio que han presentado en dicha conferencia se ofrecen detalles del sistema que han desarrollado para ello, capaz de producir vídeos en slow motion, ralentizados a casi cualquier tasa de frames, a partir de uno de 30 fotogramas por segundo. Los resultados que se obtienen con el sistema es un vídeo de alta calidad que se reproduce con suavidad y sin cortes.

El equipo de investigadores, con el Director de computación visual e investigación en machine learning de Nvidia a la cabeza, Jan Kautz, asegura que se puede utilizar para generar vídeos en slow motion a partir de grabaciones caseras y también en proyectos profesionales.

Para entrenar al sistema, el equipo de Kautz ha utilizado GPUs Nvidia Tesla V100 y el framework de deep learning PyTorch. Con esto han suministrado al sistema más de 11.000 vídeos a 240 fotogramas por segundo. Una vez finalizado el entrenamiento, el sistema era capaz de comprender cómo pueden dividirse los vídeos con una alta tasa de fotogramas por segundo, tanto fotograma por fotograma como segundo a segundo.

Una vez que logró asimilar toda esta información, el sistema ya era capaz de examinar dos fotogramas secuenciales de un vídeo de 30 fotogramas por segundo y predecir el aspecto que habrían tenido los fotogramas intermedios si se hubiesen grabado con una tasa de frames más alta. Por tanto, el sistema se encarga de «rellenar los fotogramas intermedios y los une para crear un vídeo nuevo y más lento«.

A pesar de los buenos resultados, el sistema puede encontrar problemas en el proceso. Fundamentalmente, por dos razones. La primera es que hay objetos en los vídeos que se mueven muy rápido y puede resultar complicado adivinar en qué dirección. La segunda es que, cuando los objetos de un vídeo se mueve, pueden a veces tapar otros, o dejar a la vista otros que antes estaban tapados. Por, tanto, el sistema tiene que ser capaz de trabajar con elementos que no se ven en un fotograma pero puede que en otro sí se vean. Y ha sido capaz de solucionar los dos problemas.

No obstante, y a pesar de los resultados obtenidos, este sistema es todavía un prototipo, y el equipo de investigadores que lo ha desarrollado todavía no han intentado optimizarlo para que llegue a los consumidores. De hecho, no podría integrarse en determinados dispositivos de uso cotidiano. Por ejemplo, en un smartphone, dado que «la potencia de proceso que se necesita para hacer esto es más del que tienen los teléfonos en la actualidad«. Pero podría ser posible «subiéndolo a un servidor, hay maneras de hacer que funcione y de llevarlo a los usuarios«.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído