Conecta con nosotros

Noticias

Meta usó libros protegidos por derechos de autor para entrenar IAs en contra del consejo de sus abogados

Publicado el

Meta usó libros protegidos por derechos de autor para entrenar IAs en contra del consejo de sus abogados

Hace varios meses, en agosto, varios autores estadounidenses demandaron a OpenAI y Meta por utilizar libros protegidos por derechos de autor para el entrenamiento de sus modelos de IA. Desde entonces hasta ahora, el proceso judicial ha seguido su curso, y como suele suceder en estos casos, se han ido incorporando nuevas pruebas y elementos de relevancia para la resolución de la demanda a la misma. Pues bien, según Reuters, en la última incorporación a la causa, aparecen indicios de que Meta utilizó miles de estos libros a pesar de que sus abogados le aconsejaron no hacerlo por los problemas legales que podían tener por ello.

La documentación, presentada a principios de esta misma semana, consolida dos demandas contra Meta por los autores Sarah Silverman y Michael Chabon, entre otros, que alegan que Meta utilizó sus obras sin permiso para entrenar su modelo de lenguaje de IA, Llama. Y llega después de que un juez de California descartase el mes pasado parte de la demanda de Silverman e indicase que daría a los autores permiso para modificar sus demandas.

Esta nueva queja presentada incluye grabaciones de chats de un investigador relacionado con Meta discutiendo sobre la obtención del conjunto de datos en un servidor de Discord. Es una evidencia potencialmente notable, en la que se indica que en Meta eran conscientes de que el uso que hacía de los libros podía no estar protegido por la ley de derechos de autor de Estados Unidos.

En estas conversaciones, el investigador Tim Dettmers, un doctorando de la Universidad de Washington, describe su tira y afloja con el departamento legal de Meta sobre si sería o no legal utilizar los archivos de los libros como datos de entrenamiento. Además, señalaba ya en 2021 que en Facebook había muchos, él incluido, interesados en trabajar con ellos. También avisaba de que tal como están no podían utilizarlos por motivos legales, pero se refería a un conjunto de datos que Meta ya estaba utilizando para entrenar su primera versión de Llama.

Un mes antes, Dettmers escribía que los abogados de la compañía le habían dicho que los datos no podían utilizarse, o que no podían hacer públicos los modelos si estaban entrenados con ellos. No llega a describir al detalle las preocupaciones de los abogados, pero otros de los participantes en la conversación hablan sobre libros con protección por derechos de autor activa como su mayor fuente de preocupación.

Además, en la conversación se menciona que entrenar con este tipo de datos debería estar protegido por la doctrina legal de «uso justo». Esta doctrine, vigente en Estados Unidos, protege algunos usos sin permiso de trabajos protegidos por copyright.

Meta lanzó una versión de su modelo grande de lenguaje Llama el pasado mes de febrero. Cuando lo hizo, publicó una lista de los conjuntos de datos utilizados en su entrenamiento. En ella figura la conocida como «sección Books3 de ThePile», que según la persona que compiló dicho conjunto de datos, contiene 196.640 libros. Al publicar para uso empresarial la segunda versión del modelo, Llama 2, este verano, la compañía ya no detalló qué datos había utilizado para entrenarlo.

Esta demanda no es la primera de este tipo, ya que hay varias contra tecnológicas, presentadas por creadores de contenido que acusan a las empresas de utilizar trabajos protegidos por derechos de autor para desarrollar modelos de IA generativa. Este caso es uno de los de mayor relevancia, y si los demandantes tienen éxito, su victoria podría cambiar notablemente el panorama que rodea a la IA generativa.

Una sentencia en contra de Meta podría llevar a otras similares, que haría que las tecnológicas tuviesen que compensar a los creadores por utilizar sus obras, y elevar como consecuencia el coste del desarrollo y entrenamiento de modelos. De ahí el interés que despierta este proceso judicial.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído